论坛采集器 贴吧采集软件( 五 )


中消协此前发布的《APP个人信息泄露情况调查报告》显示,约86.5%的受访者曾受到推销电话或短信的骚扰,约75.0%的受访者接到诈骗电话,约63.4%的受访者收到垃圾邮件,排名位居前三位 。
对于此类爬虫软件,多数网站早已声明严厉禁止 。北京炜衡律师事务所周浩律师认为,“网络爬虫爬取数据需要遵守第三方平台的Robots协议以及获取数据的性质具有公开性,不得包含个人信息数据、商业秘密及国家秘密等信息数据 。如果突破、绕开第三方平台的反爬虫策略、协议时,或涉嫌非法获取计算机信息系统数据罪、提供侵入非法控制计算机信息系统程序工具罪 。”
Robots协议也称为爬虫协议、机器人协议等,其全称为“网络爬虫排除标准(RobotsExclusionProtocol)” 。
“网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取 。对于搜索引擎来说是行业通用的爬取约定协议,但对恶意爬虫来说并没有任何约束力 。”知道创宇技术总监邓金城告诉新京报采访人员说 。
据腾讯发布的《2018上半年安全专题系列研究报告》(以下简称报告)显示,恶意爬虫通过分析并自行构造参数对非公开接口进行数据爬取或提交,获取对方本不愿意被大量获取的数据 。
报告指出,据统计,出行、社交、电商占恶意爬虫流量目标行业分布前三位,占比分别为20.87%、18.40%、13.38% 。
周浩表示,《网络安全法》《个人信息安全规范》都强调了,通信联系方式(电话号码)是重要的个人信息,非经同意不得收集 。提供用来收集个人信息的工具,一旦被使用必然存在违规 。
技术发展倒逼法律完善
收集重要数据或个人敏感数据需备案
溯其本源,便是逐利 。
“一些所谓的大数据公司本身没有数据来源,而是通过爬虫手段获取他人的数据 。”程柏说 。
反爬斗争已悄然进入白热化 。不过,“反爬”绝非易事 。知道创宇404实验室副总监隋刚介绍,规模较大的公司都会有自己的反爬机制,但“有些爬虫可以绕过这些反爬机制” 。
技术的不断发展在倒逼相关法律趋于完善 。2019年5月份,国家互联网信息办公室发布了《数据安全管理办法》征求意见稿(以下简称“征求意见稿”)对爬虫技术有明确的定义和规定 。其中第十六条规定,网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止 。
“不过,第十六条在实践操作中可能存在一定问题,对造成网络不能正常运行也未有相应的处罚措施,这可能是将来需要完善的地方 。”曾多次参与制定企业隐私政策的京师上海国际总部专职律师徐延轩说 。
同时征求意见稿第十五条也规定了,“网络运营者以经营为目的收集重要数据或个人敏感信息的,应向所在地网信部门备案 。”徐延轩认为,收集重要数据备案制度可能是未来监管的方向 。
新京报采访人员 李大伟 罗亦丹 实习生 徐子林
采访人员邮箱:lidawei@xjbnews.com

经验总结扩展阅读