數(shù)據(jù)爬蟲技術(shù)作為一種重要的數(shù)據(jù)采集手段,被廣泛應(yīng)用于互聯(lián)網(wǎng)的諸多領(lǐng)域,也引發(fā)了越來越多的爭議,例如與其相關(guān)的互聯(lián)網(wǎng)企業(yè)之間不正當競爭甚至刑事犯罪問題,已然成為數(shù)據(jù)產(chǎn)業(yè)發(fā)展中亟待解決、法律實務(wù)中需要進一步厘清的焦點之一。
近日,上海市楊浦區(qū)檢察院組織召開“數(shù)據(jù)爬蟲的法律合規(guī)研討會”,法律實務(wù)界人士、高校專家學(xué)者與企業(yè)代表圍繞數(shù)據(jù)爬蟲的概念和技術(shù)原理、行業(yè)自治規(guī)范、合法性邊界和法律適用等主題開展了深入研討。
數(shù)據(jù)爬蟲的概念和技術(shù)原理
大數(shù)據(jù)時代,數(shù)據(jù)資源是互聯(lián)網(wǎng)企業(yè)發(fā)展的重要基礎(chǔ)。當下,數(shù)據(jù)爬蟲是企業(yè)采集公開數(shù)據(jù)的常用技術(shù)手段之一。通過數(shù)據(jù)爬蟲技術(shù),可以實現(xiàn)對文本、圖片、音頻、視頻等互聯(lián)網(wǎng)信息的海量抓取。那么,數(shù)據(jù)爬蟲到底是什么,其技術(shù)原理又是什么?
對此,上海市楊浦區(qū)檢察院檢察官邵旻認為,爬蟲是一種自動化瀏覽網(wǎng)絡(luò)程序,其按照設(shè)置的規(guī)則通過模擬人工點擊來自動抓取互聯(lián)網(wǎng)數(shù)據(jù)和信息,從而自動、高效地讀取或收集互聯(lián)網(wǎng)數(shù)據(jù)。該技術(shù)運行的基本原理是根據(jù)搜索目的建立待爬行的URL(統(tǒng)一資源定位器)隊列,從中取出URL,訪問該URL對應(yīng)的頁面,并進行頁面解析,提取此頁面上所有的URL并存入待爬行隊列中。如此循環(huán)爬行,直到URL隊列中的所有URL爬行完畢或滿足系統(tǒng)的一定停止條件為止。
歐萊雅中國區(qū)數(shù)字化負責(zé)人劉煜晨表示,從技術(shù)角度觀察,數(shù)據(jù)爬蟲就是用程序模擬人類通過瀏覽器(或者App)上網(wǎng),高效地去網(wǎng)上抓取其所需要的數(shù)據(jù)信息的過程。爬蟲可以抓取所有數(shù)據(jù),也可以按條件抓取所需要的數(shù)據(jù)。
當然,數(shù)據(jù)爬蟲技術(shù)運用不當也會產(chǎn)生不良影響,小紅書總法律顧問曾翔分析認為,爬蟲技術(shù)應(yīng)用不當既可能侵犯個人和平臺權(quán)利,也可能破壞互聯(lián)網(wǎng)公共管理秩序,進而導(dǎo)致社會資源浪費。
數(shù)據(jù)爬蟲技術(shù)應(yīng)用的行業(yè)自治規(guī)范
邵旻認為,網(wǎng)站通常會采取適當措施,如運用Robots協(xié)議、爬蟲檢測、加固Web站點、設(shè)置驗證碼等限制爬蟲的訪問權(quán)限,以防止爬蟲對數(shù)據(jù)進行過度抓取。其中,Robots協(xié)議由于簡單高效,成為國內(nèi)外互聯(lián)網(wǎng)行業(yè)普遍通行、遵守的技術(shù)規(guī)范。Robots協(xié)議主要是限制網(wǎng)絡(luò)爬取數(shù)據(jù)的行為。被爬取數(shù)據(jù)方將寫有可爬取信息范圍的Robots協(xié)議文件放到該網(wǎng)站,僅允許數(shù)據(jù)爬取方在協(xié)議范圍內(nèi)爬取數(shù)據(jù)。
華東政法大學(xué)教授高富平認為,Robots協(xié)議是在搜索引擎誕生并且發(fā)展壯大的背景下應(yīng)運而生的,它是互聯(lián)網(wǎng)企業(yè)間相互博弈的結(jié)果,是最終在商業(yè)利益、用戶個人利益和網(wǎng)站自身安全的基礎(chǔ)上達成的一種妥協(xié)。其主要是起到一種排除作用,當某些網(wǎng)站不愿意其數(shù)據(jù)被搜索引擎所抓取時,這些網(wǎng)絡(luò)機器人就會自動排除這些不愿意被抓取的內(nèi)容。對于Robots協(xié)議約定不能爬取的范圍是爬蟲的紅線,不能超過這個紅線邊界爬取數(shù)據(jù)。
數(shù)據(jù)爬蟲的合法性邊界和法律適用
高富平認為,爬蟲是支撐數(shù)據(jù)經(jīng)濟的一種手段,在這樣的前提下,判斷爬蟲合法性邊界可以參考以下因素:一是數(shù)據(jù)是否屬于開放數(shù)據(jù)。數(shù)據(jù)是否公開不是合法性判斷的標準,是否為開放數(shù)據(jù)才是,公開數(shù)據(jù)不必然等同于開放數(shù)據(jù);二是取得數(shù)據(jù)的手段是否合法。爬蟲采用的技術(shù)是否突破數(shù)據(jù)訪問控制,法律上是否突破網(wǎng)站或App的Robots協(xié)議;三是使用目的是否合法。如果爬蟲的目的是實質(zhì)性替代被爬蟲經(jīng)營者提供的部分產(chǎn)品內(nèi)容或服務(wù),則會被認為目的不合法;四是是否造成損害。爬蟲是否實質(zhì)上妨礙被爬蟲經(jīng)營者的正常經(jīng)營,是否不合理增加運營成本,是否破壞系統(tǒng)正常運行。對于超越合法邊界的數(shù)據(jù)爬蟲,從民事法律規(guī)制角度,可以區(qū)分四種情形:首先,對于公開數(shù)據(jù)的爬取行為。如果數(shù)據(jù)權(quán)利方在Robots協(xié)議或網(wǎng)頁中告知了可以爬取的范圍以及其他應(yīng)遵守的義務(wù),爬取方?jīng)]有遵守義務(wù),應(yīng)當承擔(dān)相應(yīng)民事責(zé)任。其次,對于突破網(wǎng)站或App的反爬蟲技術(shù)設(shè)置的行為。爬蟲從技術(shù)上突破數(shù)據(jù)訪問控制,如突破網(wǎng)站或App的Robots協(xié)議以及設(shè)置的爬蟲檢測、加固Web站點等限制爬蟲的訪問權(quán)限,可能違法,要承擔(dān)相應(yīng)的民事責(zé)任。再次,對于數(shù)據(jù)使用目的不正當?shù)男袨?。對于爬取到的?shù)據(jù),如果使用目的是實質(zhì)性替代被爬蟲經(jīng)營者提供的部分產(chǎn)品內(nèi)容或服務(wù),屬于侵犯權(quán)利方合法權(quán)益的行為,應(yīng)當承擔(dān)相應(yīng)民事責(zé)任。最后,對于給權(quán)利人造成損害的行為。如果因為爬蟲行為實質(zhì)上妨礙權(quán)利人的正常經(jīng)營,不合理增加權(quán)利人運營成本,破壞網(wǎng)絡(luò)系統(tǒng)正常運行,給權(quán)利人造成損失的,權(quán)利人可以向爬蟲行為人提起侵權(quán)之訴。
邵旻建議,從三個方面劃定數(shù)據(jù)爬蟲技術(shù)合法使用的邊界:一是合法的網(wǎng)絡(luò)數(shù)據(jù)爬取應(yīng)限于對開放數(shù)據(jù)的獲取。如果網(wǎng)絡(luò)爬蟲獲取非開放的數(shù)據(jù),便涉嫌違法甚至犯罪;二是合法使用的數(shù)據(jù)爬蟲技術(shù)不應(yīng)具有侵入性,可以說,爬蟲的侵入性是其違法性的主要體現(xiàn);三是數(shù)據(jù)爬取應(yīng)當基于正當目的,對開放數(shù)據(jù)的獲取可能因不符合正當目的而具有違法性。對開放的非商業(yè)性數(shù)據(jù)的爬取應(yīng)當要求符合公共利益之根本目的。對開放的商業(yè)性數(shù)據(jù)的爬取則可借鑒版權(quán)法上的合理使用原則,要求基于合理利用目的。著眼刑事法律角度規(guī)制數(shù)據(jù)爬蟲,可以從爬蟲行為和數(shù)據(jù)使用兩方面入手:其一,明知沒有授權(quán)而故意避開或強行突破網(wǎng)站或App的反爬蟲技術(shù)設(shè)置進行的爬取行為,屬于“未經(jīng)授權(quán)”訪問或獲取數(shù)據(jù),行為人應(yīng)依法承擔(dān)相應(yīng)責(zé)任包括刑事責(zé)任。根據(jù)我國刑法規(guī)定,突破技術(shù)屏障入侵他人計算機系統(tǒng)、獲取系統(tǒng)內(nèi)的數(shù)據(jù),可能涉及的罪名包括非法侵入計算機信息系統(tǒng)罪、非法獲取計算機信息系統(tǒng)數(shù)據(jù)罪、破壞計算機信息系統(tǒng)罪。此外,如果利用爬蟲技術(shù)非法獲取公民個人信息,可能觸犯侵犯公民個人信息罪。其二,對于使用爬取的數(shù)據(jù)實施的犯罪行為,刑法也予以特別規(guī)制。如對獲取的信息數(shù)據(jù)加以傳播、利用或改造,有可能涉及傳播淫穢物品罪、侵犯商業(yè)秘密罪、侵犯著作權(quán)罪等。
(作者單位:上海市楊浦區(qū)人民檢察院)
關(guān)鍵詞: 數(shù)據(jù) 須遵規(guī)
關(guān)于我們 廣告服務(wù) 手機版 投訴文章:435 226 40@qq.com
Copyright (C) 1999-2020 www.w4vfr.cn 愛好者日報網(wǎng) 版權(quán)所有 聯(lián)系網(wǎng)站:435 226 40@qq.com