数据爬虫的是与非:技术中立但恶意爬取频发,侵权边界在哪?

作者&投稿:爱姚 (若有异议请与网页底部的电邮联系)
~

从新浪微博诉脉脉不正当获取用户数据案,到领英与hiQ Labs的数据之争……相关司法案例的不断出现,让数据爬取问题成为关切。

10月23日,长三角数据合规论坛(第三期)暨数据爬虫的法律规制研讨会在上海举行。围绕爬虫技术对数字产业影响、爬取他人数据的法律边界及规制等话题,多位法律专家、司法工作者和企业代表展开了研讨。

大数据时代,随着数据价值凸显,数据爬虫的应用日益广泛。多位专家在会上提到,爬虫技术本身是中立的,但爬虫技术的应用往往带有目的,需要考量抓取行为及数据使用是否具有正当性。

“凶猛”的网络爬虫,增加网站运营负担

从技术角度看,爬虫是通过程序模拟人们上网浏览网页或使用App行为,从而高效抓取网络信息的过程。对于这项技术,并非所有人都欢迎。

欧莱雅中国数字化负责人刘煜晨在研讨会上表示,大多数网站拒绝爬虫访问,既有商业利益考量,也出于自身网站运营安全考虑。爬虫自动持续且高频地访问,会导致网站服务器负载飙升,使得一些中小平台面临网站打不开、网页加载缓慢,甚至直接瘫痪的风险。因此,“网站经营者面对‘凶猛’的网络爬虫时往往苦不堪言。”

虽然网站可以采取相应策略或技术手段,防止被爬取数据,但爬虫者也有更多技术手段来反制,即所谓的反反爬策略。据刘煜晨介绍,反爬和爬取技术一直在迭代更新——爬取不是问题,关键在于愿不愿意爬和多难爬。通常,越是大厂的App或者网站越难爬,其反爬机制较多。

小红书法务负责人曾翔观察发现,恶意爬虫案例经常发生在内容平台和电商平台。在内容上更多被爬取视频、图片、文字、用户行为数据等,在电商领域更多被爬取商家信息和商品信息。

“一般而言,内容平台会约定相关内容的知识产权应当归发布者或发布者与平台共同所有。未经同意爬取的,涉嫌侵犯知识产权。”曾翔表示,平台通过投入激发创作者的创造力,如果有人利用爬虫技术很轻易地获取内容,并进行抄袭、改编,这损害平台利益。

提及网络爬虫,Robots协议是绕不开的话题——它的全称是“网络爬虫排除标准”,网站通过Robots协议明确警示搜索引擎哪些页面可以爬取,哪些页面不能爬取。该协议也被行业称为搜索领域的“君子协定”。

上海浦东法院知识产权庭法官徐弘韬这样形容:爬虫就是一个访客,Robots协议是房门上悬挂的请勿入门的告示牌。谦谦君子走近门前看到这个告示牌,会停下脚步,但不法之徒仍可能破门而入。

梳理相关判例,徐弘韬指出,Robots协议是互联网行业普遍遵循的规则,如果搜索引擎违反Robots协议抓取网站内容,可能会被认定为违背商业道德,构成不正当竞争。但Robots协议解决前置性问题,即抓取行为是否得当,而不解决抓取之后数据使用是否得当的问题。

他进一步分析,法院在个案件判决中倾向于认为爬虫技术是具有中立属性,并尊重网站对于Robots协议设置方式。如果爬取者违背Robots协议进行强行抓取,在正当性评判上可能给予一定的负面评价。此外Robots协议和行为正当性有关联,但不是唯一对立性——即使符合Robots协议抓取,也可能因为后期使用行为被判定为不正当性。

值得一提的是,网络爬虫者对爬取行为进行抗辩时,经常将Robots协议限制爬取与数据流转联系起来。

徐弘韬认为,在“互联互通”的语境下,“有序”和“流转”同等重要。这需要把握“互联互通”与数据共享之间的度的问题,同时考虑各互联网产业经营者采取的Robots协议策略是否可能导致数据孤岛局面的出现。

判别爬虫行为正当性,需考虑多重因素

研讨会上,华东政法大学教授张勇对数据爬虫的危害行为进行了分类。

他称从数据类型上来看,数据爬取可能侵犯到的权益包括计算机系统安全、个人信息、版权、国家秘密、商业秘密、市场竞争秩序等;从爬取方式来看,数据爬取可能危害到计算机信息系统安全、非法获取公民个人信息、非法获取商业秘密、破坏版权技术保护措施等;从爬取结果来看,则存在不正当竞争类、侵犯著作权类、侵犯人格权类等问题。

当数据成为一种生产要素,数据抓取技术应用场景日益广泛,随着而来的争议纠纷也不断增多。如何判别爬虫行为的正当性,从已有的判例中或能找到一些答案。

今年9月14日,杭州互联网法院公布一起爬取微信公众号平台数据的不正当竞争案件,判决被告停止数据抓取行为,并赔偿微信损失60万元。

法院审理认为,被告违背诚实信用原则,擅自使用原告征得用户同意、依法汇集且具有商业价值的数据,并足以实质性替代其他经营者提供的部分产品或服务,损害公平竞争的市场秩序,构成不正当竞争。

在本案中,法院还从“三元目标叠加”的角度分析了爬取行为是否具有正当性。

徐弘韬以此为例提到,对于非搜索引擎爬虫的正当性判别,主要看被告是否尊重被抓取网站预设的Robots协议、是否破坏被抓取网站的技术措施、是否足以保障用户数据的安全性,以及衡量创造性与公共利益。

他指出,如果以危害用户数据安全性为代价抓取数据,且爬虫技术应用无法创造新的优质资源,仅仅是加重他人服务器负担,那么很可能在行为正当性上被给予负面评价。



八爪鱼采集器是一款合法的数据采集工具,它遵守相关法律法规,并且不提供侵权服务。八爪鱼采集器只能采集网页上公开的数据和自己的网页后台数据,无法采集没有访问权限的数据,如VIP或付费资源。对于恶意爬取和侵权行为,八爪鱼采集器坚决反对并且不支持。我们建议用户在使用八爪鱼采集器时,遵守相关法律法规,尊重他人的合法权益。了解更多八爪鱼采集器的功能与合作案例,请前往官网了解更多详情


数据爬虫的是与非:技术中立但恶意爬取频发,侵权边界在哪?
八爪鱼采集器是一款合法的数据采集工具,它遵守相关法律法规,并且不提供侵权服务。八爪鱼采集器只能采集网页上公开的数据和自己的网页后台数据,无法采集没有访问权限的数据,如VIP或付费资源。对于恶意爬取和侵权行为,八爪鱼采集器坚决反对并且不支持。我们建议用户在使用八爪鱼采集器时,遵守相关法律法规,...

python爬虫是干嘛的
爬虫技术是一种自动化程序。爬虫就是一种可以从网页上抓取数据信息并保存的自动化程序,它的原理就是模拟浏览器发送网络请求,接受请求响应,然后按照一定的规则自动抓取互联网数据。搜索引擎通过这些爬虫从一个网站爬到另一个网站,跟踪网页中的链接,访问更多的网页,这个过程称为爬行,这些新的网址会被...

不属于网络爬虫技术的是
不属于网络爬虫技术的是制定网络协议。根据查询的相关信息显示,属于网络爬虫技术的有爬取图片、爬取热评、去除网页广告。

请问什么是网络爬虫啊?是干什么的呢?
爬虫就是能够自动访问互联网并将网站内容下载下来的的程序或脚本,类似一个机器人,能把别人网站的信息弄到自己的电脑上,再做一些过滤,筛选,归纳,整理,排序等等。网络爬虫能做什么:数据采集。网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一...

如何判断访问的用户是正常用户,还是爬虫
一、单一IP非常规的访问频次 我们经常会遇到这样一种情况,提示“刷新频率过快,请歇一会”,这都是网站为了缓解压力才对“用户”作出的限制。而爬虫相对于真实用户来说访问的频次更快,如果单一IP访问频次非常高,那么将会被判为“爬虫”,进而受到限制。二、单一IP非常规的数据流量 当单一IP的数据流量...

Python爬虫是什么?
网络爬虫为一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。将根据一定的搜索策略从队列中选择下一步要抓取的网页URL...

python是什么语言
python的中文名称是蟒蛇。Python是一种计算机程序设计语言。是一种动态的、面向对象的脚本语言,最初是用来编写自动化脚本的,随着版本的不断更新和语言新功能的添加,越来越多被用于独立的、大型项目的开发。Python特点主要有以下几个方面:1、简单:Python是一种代表简单主义思想的语言。阅读一个良好的...

百度搜索引擎反爬取是什么意思?
爬虫,全称“网络爬虫”,是一种程序或者脚本,可以按照一定的规则,自动抓取万维网上的信息。目前已经步入大数据时代,爬虫已经成为了获取数据不可或缺的方式。做过爬虫的可能都遇到过,爬取的时候IP会突然被网站封掉,因为大多数网站都会设置“反爬虫”措施。为什么要反爬虫?原因其实很简单。一是爬虫会...

简述传统数据采集的关键技术有哪些?他们之间的关系是什么?
大数据采集技术,大数据预处理技术,大数据存储及管理技术,大数据分析及挖掘技术,大数据展现与应用技术数据采集是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重点要突破...

什么是爬行动物
详情请查看视频回答

常山县14753491800: Python爬虫方向的就业前景怎么样? -
鄢琴藿龙: 1、爬虫教程多: 确实,因为只考虑爬取逻辑的话,爬虫逻辑很简单,无非就是构造请求、发送请求、解析响应、获得数据四步,可能四行代码就搞定了.因为简单,而且获得的数据又很好展示,所以网上会有很多简单的爬虫教程.起个吸引眼...

常山县14753491800: 使用爬虫的目的是什么 -
鄢琴藿龙: 是为了从网页中抓取数据,并转换成结构化的形式.

常山县14753491800: 什么是网络爬虫 -
鄢琴藿龙: 1 爬虫技术研究综述 引言 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战.搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Google等,作为一个辅助人们检索...

常山县14753491800: python 爬虫 爬什么数据 -
鄢琴藿龙: 主要就是爬一些网页内容. 比如 百度、google,就是靠着上万个爬虫服务器去爬取所有静态网页内容,然后缓存在自己的服务器,以便网民搜索. 再比如,A网站有很多比较不错的图片、文章等信息,B网站自己没能力出原创,就通过爬虫去A把图片、文章爬下来后,直接发布在B网站. 等等等等......

常山县14753491800: 什么是网络爬虫以及怎么做它? -
鄢琴藿龙: 网络爬虫:是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本.另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫.做法:传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程...

常山县14753491800: python爬虫为什么只能爬取一半的数据 -
鄢琴藿龙: 爬虫的概念是,爬取网上能看到的数据,也就是只要网上存在的,通过浏览器可以看到的数据.爬虫都可以爬取.爬虫爬取的原理就是伪装成浏览器,然后进行爬取操作哪些数据你需要你就可以爬取.比如爬取公司竞争对手的商业数据,爬取电影,音乐,图片等等的.只要你希望得到的,前提浏览器可以访问的都可以爬取

常山县14753491800: 什么是网络爬虫 网络爬虫不安全体现在哪些方面 -
鄢琴藿龙: 通俗易懂的话就是一只小虫子代替人去网站的千千万万个页面去收集想要的数据.

本站内容来自于网友发表,不代表本站立场,仅表示其个人看法,不对其真实性、正确性、有效性作任何的担保
相关事宜请发邮件给我们
© 星空见康网