數(shù)據(jù)爬蟲技術(shù)作為一種重要的數(shù)據(jù)采集手段,被廣泛應(yīng)用于互聯(lián)網(wǎng)的諸多領(lǐng)域,也引發(fā)了越來越多的爭議,例如與其相關(guān)的互聯(lián)網(wǎng)企業(yè)之間不正當(dāng)競爭甚至刑事犯罪問題,已然成為數(shù)據(jù)產(chǎn)業(yè)發(fā)展中亟待解決、法律實(shí)務(wù)中需要進(jìn)一步厘清的焦點(diǎn)之一。
近日,上海市楊浦區(qū)檢察院組織召開“數(shù)據(jù)爬蟲的法律合規(guī)研討會(huì)”,法律實(shí)務(wù)界人士、高校專家學(xué)者與企業(yè)代表圍繞數(shù)據(jù)爬蟲的概念和技術(shù)原理、行業(yè)自治規(guī)范、合法性邊界和法律適用等主題開展了深入研討。
數(shù)據(jù)爬蟲的概念和技術(shù)原理
大數(shù)據(jù)時(shí)代,數(shù)據(jù)資源是互聯(lián)網(wǎng)企業(yè)發(fā)展的重要基礎(chǔ)。當(dāng)下,數(shù)據(jù)爬蟲是企業(yè)采集公開數(shù)據(jù)的常用技術(shù)手段之一。通過數(shù)據(jù)爬蟲技術(shù),可以實(shí)現(xiàn)對文本、圖片、音頻、視頻等互聯(lián)網(wǎng)信息的海量抓取。那么,數(shù)據(jù)爬蟲到底是什么,其技術(shù)原理又是什么?
對此,上海市楊浦區(qū)檢察院檢察官邵旻認(rèn)為,爬蟲是一種自動(dòng)化瀏覽網(wǎng)絡(luò)程序,其按照設(shè)置的規(guī)則通過模擬人工點(diǎn)擊來自動(dòng)抓取互聯(lián)網(wǎng)數(shù)據(jù)和信息,從而自動(dòng)、高效地讀取或收集互聯(lián)網(wǎng)數(shù)據(jù)。該技術(shù)運(yùn)行的基本原理是根據(jù)搜索目的建立待爬行的URL(統(tǒng)一資源定位器)隊(duì)列,從中取出URL,訪問該URL對應(yīng)的頁面,并進(jìn)行頁面解析,提取此頁面上所有的URL并存入待爬行隊(duì)列中。如此循環(huán)爬行,直到URL隊(duì)列中的所有URL爬行完畢或滿足系統(tǒng)的一定停止條件為止。
歐萊雅中國區(qū)數(shù)字化負(fù)責(zé)人劉煜晨表示,從技術(shù)角度觀察,數(shù)據(jù)爬蟲就是用程序模擬人類通過瀏覽器(或者App)上網(wǎng),高效地去網(wǎng)上抓取其所需要的數(shù)據(jù)信息的過程。爬蟲可以抓取所有數(shù)據(jù),也可以按條件抓取所需要的數(shù)據(jù)。
當(dāng)然,數(shù)據(jù)爬蟲技術(shù)運(yùn)用不當(dāng)也會(huì)產(chǎn)生不良影響,小紅書總法律顧問曾翔分析認(rèn)為,爬蟲技術(shù)應(yīng)用不當(dāng)既可能侵犯個(gè)人和平臺權(quán)利,也可能破壞互聯(lián)網(wǎng)公共管理秩序,進(jìn)而導(dǎo)致社會(huì)資源浪費(fèi)。
數(shù)據(jù)爬蟲技術(shù)應(yīng)用的行業(yè)自治規(guī)范
邵旻認(rèn)為,網(wǎng)站通常會(huì)采取適當(dāng)措施,如運(yùn)用Robots協(xié)議、爬蟲檢測、加固Web站點(diǎn)、設(shè)置驗(yàn)證碼等限制爬蟲的訪問權(quán)限,以防止爬蟲對數(shù)據(jù)進(jìn)行過度抓取。其中,Robots協(xié)議由于簡單高效,成為國內(nèi)外互聯(lián)網(wǎng)行業(yè)普遍通行、遵守的技術(shù)規(guī)范。Robots協(xié)議主要是限制網(wǎng)絡(luò)爬取數(shù)據(jù)的行為。被爬取數(shù)據(jù)方將寫有可爬取信息范圍的Robots協(xié)議文件放到該網(wǎng)站,僅允許數(shù)據(jù)爬取方在協(xié)議范圍內(nèi)爬取數(shù)據(jù)。
華東政法大學(xué)教授高富平認(rèn)為,Robots協(xié)議是在搜索引擎誕生并且發(fā)展壯大的背景下應(yīng)運(yùn)而生的,它是互聯(lián)網(wǎng)企業(yè)間相互博弈的結(jié)果,是最終在商業(yè)利益、用戶個(gè)人利益和網(wǎng)站自身安全的基礎(chǔ)上達(dá)成的一種妥協(xié)。其主要是起到一種排除作用,當(dāng)某些網(wǎng)站不愿意其數(shù)據(jù)被搜索引擎所抓取時(shí),這些網(wǎng)絡(luò)機(jī)器人就會(huì)自動(dòng)排除這些不愿意被抓取的內(nèi)容。對于Robots協(xié)議約定不能爬取的范圍是爬蟲的紅線,不能超過這個(gè)紅線邊界爬取數(shù)據(jù)。
數(shù)據(jù)爬蟲的合法性邊界和法律適用
高富平認(rèn)為,爬蟲是支撐數(shù)據(jù)經(jīng)濟(jì)的一種手段,在這樣的前提下,判斷爬蟲合法性邊界可以參考以下因素:一是數(shù)據(jù)是否屬于開放數(shù)據(jù)。數(shù)據(jù)是否公開不是合法性判斷的標(biāo)準(zhǔn),是否為開放數(shù)據(jù)才是,公開數(shù)據(jù)不必然等同于開放數(shù)據(jù);二是取得數(shù)據(jù)的手段是否合法。爬蟲采用的技術(shù)是否突破數(shù)據(jù)訪問控制,法律上是否突破網(wǎng)站或App的Robots協(xié)議;三是使用目的是否合法。如果爬蟲的目的是實(shí)質(zhì)性替代被爬蟲經(jīng)營者提供的部分產(chǎn)品內(nèi)容或服務(wù),則會(huì)被認(rèn)為目的不合法;四是是否造成損害。爬蟲是否實(shí)質(zhì)上妨礙被爬蟲經(jīng)營者的正常經(jīng)營,是否不合理增加運(yùn)營成本,是否破壞系統(tǒng)正常運(yùn)行。對于超越合法邊界的數(shù)據(jù)爬蟲,從民事法律規(guī)制角度,可以區(qū)分四種情形:首先,對于公開數(shù)據(jù)的爬取行為。如果數(shù)據(jù)權(quán)利方在Robots協(xié)議或網(wǎng)頁中告知了可以爬取的范圍以及其他應(yīng)遵守的義務(wù),爬取方?jīng)]有遵守義務(wù),應(yīng)當(dāng)承擔(dān)相應(yīng)民事責(zé)任。其次,對于突破網(wǎng)站或App的反爬蟲技術(shù)設(shè)置的行為。爬蟲從技術(shù)上突破數(shù)據(jù)訪問控制,如突破網(wǎng)站或App的Robots協(xié)議以及設(shè)置的爬蟲檢測、加固Web站點(diǎn)等限制爬蟲的訪問權(quán)限,可能違法,要承擔(dān)相應(yīng)的民事責(zé)任。再次,對于數(shù)據(jù)使用目的不正當(dāng)?shù)男袨?。對于爬取到的?shù)據(jù),如果使用目的是實(shí)質(zhì)性替代被爬蟲經(jīng)營者提供的部分產(chǎn)品內(nèi)容或服務(wù),屬于侵犯權(quán)利方合法權(quán)益的行為,應(yīng)當(dāng)承擔(dān)相應(yīng)民事責(zé)任。最后,對于給權(quán)利人造成損害的行為。如果因?yàn)榕老x行為實(shí)質(zhì)上妨礙權(quán)利人的正常經(jīng)營,不合理增加權(quán)利人運(yùn)營成本,破壞網(wǎng)絡(luò)系統(tǒng)正常運(yùn)行,給權(quán)利人造成損失的,權(quán)利人可以向爬蟲行為人提起侵權(quán)之訴。
邵旻建議,從三個(gè)方面劃定數(shù)據(jù)爬蟲技術(shù)合法使用的邊界:一是合法的網(wǎng)絡(luò)數(shù)據(jù)爬取應(yīng)限于對開放數(shù)據(jù)的獲取。如果網(wǎng)絡(luò)爬蟲獲取非開放的數(shù)據(jù),便涉嫌違法甚至犯罪;二是合法使用的數(shù)據(jù)爬蟲技術(shù)不應(yīng)具有侵入性,可以說,爬蟲的侵入性是其違法性的主要體現(xiàn);三是數(shù)據(jù)爬取應(yīng)當(dāng)基于正當(dāng)目的,對開放數(shù)據(jù)的獲取可能因不符合正當(dāng)目的而具有違法性。對開放的非商業(yè)性數(shù)據(jù)的爬取應(yīng)當(dāng)要求符合公共利益之根本目的。對開放的商業(yè)性數(shù)據(jù)的爬取則可借鑒版權(quán)法上的合理使用原則,要求基于合理利用目的。著眼刑事法律角度規(guī)制數(shù)據(jù)爬蟲,可以從爬蟲行為和數(shù)據(jù)使用兩方面入手:其一,明知沒有授權(quán)而故意避開或強(qiáng)行突破網(wǎng)站或App的反爬蟲技術(shù)設(shè)置進(jìn)行的爬取行為,屬于“未經(jīng)授權(quán)”訪問或獲取數(shù)據(jù),行為人應(yīng)依法承擔(dān)相應(yīng)責(zé)任包括刑事責(zé)任。根據(jù)我國刑法規(guī)定,突破技術(shù)屏障入侵他人計(jì)算機(jī)系統(tǒng)、獲取系統(tǒng)內(nèi)的數(shù)據(jù),可能涉及的罪名包括非法侵入計(jì)算機(jī)信息系統(tǒng)罪、非法獲取計(jì)算機(jī)信息系統(tǒng)數(shù)據(jù)罪、破壞計(jì)算機(jī)信息系統(tǒng)罪。此外,如果利用爬蟲技術(shù)非法獲取公民個(gè)人信息,可能觸犯侵犯公民個(gè)人信息罪。其二,對于使用爬取的數(shù)據(jù)實(shí)施的犯罪行為,刑法也予以特別規(guī)制。如對獲取的信息數(shù)據(jù)加以傳播、利用或改造,有可能涉及傳播淫穢物品罪、侵犯商業(yè)秘密罪、侵犯著作權(quán)罪等。
(作者單位:上海市楊浦區(qū)人民檢察院)
關(guān)鍵詞: 數(shù)據(jù) 須遵規(guī)
最新資訊
關(guān)于我們 廣告服務(wù) 手機(jī)版 投訴文章:435 226 40@qq.com
Copyright (C) 1999-2020 www.w4vfr.cn 愛好者日報(bào)網(wǎng) 版權(quán)所有 聯(lián)系網(wǎng)站:435 226 40@qq.com