如有问题
欢迎沟通

前端,网站等内容分享

咨询QQ:717788272

互联网数据爬取(采集)的相关法律问题分析

ID:87 / 打印

  年中国互联网协会曾于出台的《互联网搜索引擎服务自律公约》中将其简单定义为“自动爬行网络的程序”,而在国家互联网信息办公室于月出台的《数据安全管理办法(征求意见稿)》中,首次对爬虫行为进行明确规制,即“网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止”。

  提及网络爬虫,不得不说Robots协议(爬虫协议),它是爬取与被爬取之间的协议,是一种行业惯例。Robots协议(爬虫协议)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。该协议是国际互联网界通行的道德规范,虽然没有写入法律,但是每一个爬虫都应该遵守这项协议。2012年中国互联网协会发布的《互联网搜索引擎服务自律公约》,其核心在于各签约方遵循爬虫协议。

  在李文环、王硕、卢晓燕等非法侵入计算机信息系统罪一案中,被告人李文环等人利用爬虫,爬取全国各地及凉山州公安局交警支队车管所公告的车牌号信息,并突破系统安全保护措施,将爬取的车牌号提交至“交通安全服务管理平台”车辆报废查询系统,进行对比并根据反馈情况自动记录未注册车牌号,建立全国未注册车牌号数据库,之后以此牟利。

  法院认为被告等人为牟取私利,违反国家规定,侵入国家事务领域的计算机信息系统,被告人的行为均已构成非法侵入计算机信息系统罪。

  如果侵入国家事务、国防建设、尖端科学技术领域以外的计算机信息系统,获取该计算机信息系统中存储、处理或者传输的数据,则构成《刑法》规定的

  在马骏、张伟非法获取计算机信息系统数据、非法控制计算机信息系统罪刑事一审案件中,被告人马骏、张伟

  程序从山东某某教育科技有限公司网站非法获取大量英语教材内容,作为爱闻思智能英语学习系统的教材。

  法院认为,该行为属于非法获取他人计算机信息系统中的数据,构成非法获取计算机信息系统数据罪。

  使用爬虫爬取数据需正当行使,如果破解(或绕开)网站经营者设置的数据保护措施,或访问频率过高(超过网站日均流量三分之一),对网页造成破坏的,则会触犯《刑法》第

  被告人黄业兴编写“爬虫”程序后,利用王博一文提供的登录信息,将“爬虫”程序植入全运会组委会接待服务管理系统。由于“爬虫”程序在运行中自动点击了“删除”按钮,导致该系统内存储的

  余条参赛运动员及技术官员来津抵离信息、酒店住宿信息、人员身份信息被删除,致使组委会接待服务部工作人员使用的

  余万条,并将其出售。法院认为,被告人方昊违反国家规定,非法获取公民个人信息并向他人出售,属情节特别严重,其行为已构成侵犯公民个人信息罪。

  02民事责任1、侵犯著作权对于著作权,我国采取自动取得原则,当作品创作完成后,只要符合法律上作品的条件,著作权即产生。著作权是指著作权人依照法律享有的专有权利的总和,它包括著作人身权和著作财产权,其中著作财产权包括信息网络传播权等权利。当爬虫爬取著作权法保护的信息时,则可能会侵犯著作权。在福州六维网络科技有限公司、蓝牛仔影像(北京)有限公司侵害作品信息网络传播权一案(案号:(2018)闽民终1459号),被告福州六维公司利用爬虫,爬取蓝牛仔公司的摄影作品,尽管蓝牛仔公司的网站没有设置Robots协议,或者说没有禁止爬虫爬取网站信息。法院认为,蓝牛仔公司作为涉案图片的作者,可以依法主张相关的著作权。六维公司未经蓝牛仔公司许可擅自在其主办的网站上使用蓝牛仔公司涉案摄影作品,构成对蓝牛仔公司所享有的信息网络传播权的侵害。

  2、不正当竞争如果行为人利用爬虫,爬取“商业秘密”等信息,并将该数据进一步利用,甚至公开披露、使用,则可能会触犯《反不正当竞争法》第九条,构成对权利人商业秘密的侵犯。案例:在腾讯科技(深圳)有限公司、深圳市腾讯计算机系统有限公司等与广州合聚教育咨询有限公司等商业贿赂不正当竞争一案(案号:(2020)粤0104民初46873号 )中,被告利用爬虫爬取原告微信公众号平台的文章,法院认为其行为构成对原告的不正当竞争。竞争利益:原告经营微信公众号平台需要投入经营成本,也需要支配人力、物力、财力来维护平台的正常运行。微信公众号平台实质上是信息传播平台,公众号经营者通过信息流吸引商业广告,进而产生收益,而这些广告收益与原告对平台的设立、维护、发展状况密不可分。平台投入资源和服务越多,经营状况越好,越具有影响力,收益亦随之增多。竞争关系:微信公众号平台为公众号经营者提供发布文章或信息的平台,通过聚合各公众号内容,从而聚集网络流量,并通过发布商业广告获得收益。被告广州合聚公司经营的“今日看点”网站及×××亦是聚合其他主体发布的文章或信息,并通过网络流量吸引商业广告,从而获得收益。如果被告广州合聚公司聚合的文章或信息不是来源于原告的微信公众号,则双方提供的服务不存在替代关系,一方无权禁止另一方经营信息聚合平台,法律亦不能强行干预,属于自由竞争范畴。与之相反,如果双方平台聚合的内容相同或实质性相似,就会形成替代关系,一方向消费者提供服务,必然会减少另一方向消费者提供服务的数量,此情况下,原告与被告广州合聚公司之间就存在竞争关系。竞争损失:被告广州合聚公司“移植”微信公众号文章的行为,已在涉案文章范围内对原告经营的服务产生替代效果,这必然会减少原告微信公众平台的网络流量,进而影响原告的商业广告收益,对原告造成损失。综合前述分析,原告对微信公众平台享有应受法律保护的竞争利益,被告广州合聚公司“移植”微信公众平台涉案文章使得双方存在竞争关系,且该“移植”行为对原告竞争利益造成了损害,应当认定被告之行为构成不正当竞争。

  robots协议)是指互联网站所有者使用robots.txt文件,向网络机器人(Web robots)给出网站指令的协议。网络机器人(Web robots也叫网络游客、爬虫程序、蜘蛛程序),是自动爬行网络的程序。搜索引擎利用这些程序索引网站内容,垃圾邮件发送者使用网络机器人扫描获取电子邮件地址,网络机器人还有很多其他用途。

  【非法获取计算机信息系统数据、非法控制计算机信息系统罪】违反国家规定,侵入前款规定以外的计算机信息系统或者采用其他技术手段,获取该计算机信息系统中存储、处理或者传输的数据,或者对该计算机信息系统实施非法控制,情节严重的,处三年以下有期徒刑或者拘役,并处或者单处罚金;情节特别严重的,处三年以上七年以下有期徒刑,并处罚金。

  第二十七条 任何个人和组织不得从事非法侵入他人网络、干扰他人网络正常功能、窃取网络数据等危害网络安全的活动;不得提供专门用于从事侵入网络、干扰网络正常功能及防护措施、窃取网络数据等危害网络安全活动的程序、工具;明知他人从事危害网络安全的活动的,不得为其提供技术支持、广告推广、支付结算等帮助。

  第四十四条 任何个人和组织不得窃取或者以其他非法方式获取个人信息,不得非法出售或者非法向他人提供个人信息。

  未经权利人许可,任何组织或者个人不得故意避开或者破坏技术措施,不得以避开或者破坏技术措施为目的制造、进口或者向公众提供有关装置或者部件,不得故意为他人避开或者破坏技术措施提供技术服务。但是,法律、行政法规规定可以避开的情形除外。

  本法所称的技术措施,是指用于防止、限制未经权利人许可浏览、欣赏作品、表演、录音录像制品或者通过信息网络向公众提供作品、表演、录音录像制品的有效技术、装置或者部件。

  第三十二条 任何组织、个人收集数据,应当采取合法、正当的方式,不得窃取或者以其他非法方式获取数据。

  (三)违反保密义务或者违反权利人有关保守商业秘密的要求,披露、使用或者允许他人使用其所掌握的商业秘密;

  (四)教唆、引诱、帮助他人违反保密义务或者违反权利人有关保守商业秘密的要求,获取、披露、使用或者允许他人使用权利人的商业秘密。

  、个人实施本条第一款所列违法行为,仍获取、披露、使用或者允许他人使用该商业秘密的,视为侵犯商业秘密。

  本法所称的商业秘密,是指不为公众所知悉、具有商业价值并经权利人采取相应保密措施的技术信息、经营信息等商业信息。

  第十二条 经营者不得利用技术手段,通过影响用户选择或者其他方式,实施下列妨碍、破坏其他经营者合法提供的网络产品或者服务正常运行的行为:

  第一条 经营者扰乱市场竞争秩序,损害其他经营者或者消费者合法权益,且属于违反反不正当竞争法第二章及专利法、商标法、著作权法等规定之外情形的,人民法院可以适用反不正当竞争法第二条予以认定。

  第二条 与经营者在生产经营活动中存在可能的争夺交易机会、损害竞争优势等关系的市场主体,人民法院可以认定为反不正当竞争法第二条规定的“其他经营者”。

  第三条 特定商业领域普遍遵循和认可的行为规范,人民法院可以认定为反不正当竞争法第二条规定的“商业道德”。

  人民法院应当结合案件具体情况,综合考虑行业规则或者商业惯例、经营者的主观状态、交易相对人的选择意愿、对消费者权益、市场竞争秩序、社会公共利益的影响等因素,依法判断经营者是否违反商业道德。人民法院认定经营者是否违反商业道德时,可以参考行业主管部门、行业协会或者自律组织制定的从业规范、技术规范、自律公约等。

标签: 爬虫数据采集 
上一篇: 采集站生存困境:原因与解决方案
下一篇: 大数据信息资料采集:电商网站产品评论搜集爬虫

作者:遇梦 @ 遇梦前端   2024-03-07