本文转载自公众号“华东政法大学学报”
作者简介
丁晓东 中国人民大学法学院副教授、未来法治研究院副院长
目 次
一、网络爬虫与数据争议
二、数据权属的四种观点
三、数据权属:法律条文与教义分析
四、数据权属:实用主义的后果分析
五、数据权属的场景化界定
六、结语
摘 要:网络平台数据已经成为互联网企业的核心资产,但平台数据常常包含大量的个人数据。平台数据既可以被认为个人所有、平台所有、个人与平台共有,也可以被认为是互联网空间的公共数据。无论是法律条文和法律教义的分析,还是基于正当性与后果主义的分析,都无法完全明确界定数据权属。究其原因,平台数据具有多重属性,而且其属性高度依赖场景。对平台数据进行确权,应当遵循场景化的规则制定方式,以理性规则和个案来自下而上地推动数据规则体系演进,而非寻求数据的统一性规则。在实体判断上,应当综合考虑平台性质、数据爬虫行为等多种因素,最大限度推动数据流通与数据保护的平衡。
关键词:数据权属 数据保护 网络爬虫 隐私 不正当竞争
数据对于互联网企业的发展具有举足轻重的作用。一个互联网企业与平台拥有的用户数量越多,它就可能吸引越多的用户,在和其他互联网企业与平台的竞争中,它就越可能处于有利地位。这种滚雪球式的网络效应使得互联网企业往往将数据视为竞争中的核心资产。哪家互联网企业掌握了更多的数据,对数据进行了更好地利用,哪家互联网企业就可能在竞争中具备领先优势。
或许正是由于数据的重要地位,近年来关于数据的争议问题层出不穷。在华为与腾讯的数据之争、顺风与菜鸟之争的接口门事件、 新浪诉脉脉案、 大众点评诉百度案、 淘宝诉美景不正当竞争纠纷案、 美国的Craigslistv. 3Taps案、 hiQ v. LinkedIn案中,各方所争议的核心问题都是数据:当一个网络平台通过技术手段获取另一个平台的数据时,这种行为是否合法与合理?或者更为简单地说:平台的数据到底属于谁?
对于这个问题,法学界已经有不少研究,但此类研究主要从部门法的角度切入,对平台数据权属问题进行部门法分析。例如,有的学者从反不正当竞争法的角度分析数据爬虫的合法性,有的学者从民法财产权的角度分析企业数据的财产权保护, 有的学者从知识产权角度分析企业数据保护。 此类研究虽然从不同角度对思考数据权属问题提供了深刻的洞见,但没有从整体性的角度思考数据权属特别是平台的数据权属问题。而经济学的文献虽然越来越关注数据权属问题,为分析数据权属问题提供了很多有益的见解, 但数据权属问题仍然不是一个纯粹的经济学问题,其正当性无法奠定在纯粹的效率分析的基础上。例如,从纯粹的效率视角来看,数据权属划归为平台最有效率,因为数据的集中化运用与规模化运用可以有效地化解数据的外部性问题与交易成本问题。但此类分析进路并未考虑到个人隐私问题和更大范围公共领域的数据流通问题,一种极端的想象的例子是,平台可以利用个人隐私类数据来驱使与威胁个人劳动,从而促进效率,但此种制度安排显然并不一定合理。因此,经济学的文献虽然为平台数据权属问题提供了有益的分析,但这类分析只能是更为整全性分析的一部分。
基于上述考虑,本文对平台数据权属问题进行较为全面的分析。具体而言,本文从数据争议中的典型技术手段——网络爬虫——切入,思考平台数据的权属问题。所谓网络爬虫,指的是一种按照一定的规则,自动抓取万维网信息的程序或者脚本的做法。在过去互联网发展的若干年里,网络爬虫与反网络爬虫非常普遍。一方面,很多互联网企业通过网络爬虫来抓取数据;另一方面,有的互联网企业为了防止其他企业爬虫而设置了各种反爬虫技术。从网络爬虫切入,我们可以深入分析网络平台数据的权属与数据保护问题。
本文的分析将表明,平台的数据权属无法进行明确化的界权。平台的数据常常具有多重属性:平台数据包含了大量的个人数据,个人对于此类数据具有数据隐私保护的权利;平台数据是企业所收集的,企业对于平台数据拥有相应的权益;平台数据又可能属于公共领域,无论个人或企业都不具有独占性权利。此外,平台数据的属性又常常高度依赖于具体场景。基于这些特征,本文认为应当对平台数据进行场景化的保护,无论是个人数据还是企业数据,都应当通过自下而上的个案化判断来制定规则。在个案考虑中,需要考虑平台性质、数据性质、数据爬虫性质,努力实现数据隐私保护、企业数据权益保护与数据共享的平衡。
一、网络爬虫与数据争议
网络爬虫技术最先使用和最常使用的场景是通用搜索引擎,如谷歌、百度、搜狗和必应。对于通用搜索引擎而言,其对爬虫技术的使用基本上是一个双赢与多赢的过程。对于搜索引擎而言,搜索引擎通过爬虫技术实现了信息的高效获取与汇集;而对于被爬虫的网页而言,这些网页也通过搜索引擎的链接而得到了推广。
但在网络爬虫的行为中,被爬虫的一方不希望其数据被爬的情形很快出现了。互联网行业的从业者逐渐发展出了两种通行的手段来反爬虫。其一,他们发展出了一套君子协议:robots协议(机器人协议或拒绝机器人协议),即由网站所有者生成一个指定的文件robot.txt,并放在网站服务器的根目录下,这个文件指明了网站中哪些目录下的网页是不允许爬虫抓取的。具有友好性的爬虫在抓取该网站的网页前,往往会先读取robot.txt文件,对于禁止抓取的网页不进行下载。其二,互联网行业的从业者还发展出了技术性的反爬虫手段,通过设置各种技术手段来防止爬虫机器人的访问。例如,可以进行技术设定,当某一网站访问过快时,就要求该网站输入验证码,以此确定排除非人工的访问。再比如,网站也可以不定期改变HTML标签,使之无法与Web排序匹配来限制爬虫。
在互联网企业进行爬虫与反爬虫斗争的同时,围绕着数据的法律争议也开始展开。2000年,Bidder’s Edge公司的网站对Ebay网站进行了网络爬虫,Ebay公司据此向加利福尼亚北区法院提起诉讼,控告Bidder’s Edge公司对其网站的爬虫行为违反了robot协议,具有非法侵入(trespass)、计算机欺诈和滥用、不公平竞争等违法行为。最终,法院认同了非法侵入这一项控告,认为被告未经授权干扰原告在计算机系统中的占有权益,这种行为直接导致原告受到损害。
在此案中,Bidder’s Edge公司给自身的辩护理由是,Ebay网站的信息都是公开可访问的,因而不存在非法侵入的问题。对此,法院的意见是,Ebay公司的服务器是私人财产,其给予的公众访问权限是授予的,Ebay一般不允许爬虫机器人进行访问,而且此案中Ebay明确告知Bidder’s Edge公司不许对其网站进行爬虫。因此,此案中存在非法入侵。
在访问权限问题上,中国的案件与Ebay案的判决思路较为一致。例如,在新浪诉脉脉案、 大众点评诉百度案等案件中,法院都认定,未经对方授权进行网络爬虫,大量获取对方网站的数据,属于违法行为。在这些案件中,法院常常援引《反不正当竞争法》的规定,认为此类行为具有“扰乱市场竞争秩序,损害其他经营者或者消费者的合法权益的行为”,违反了《反不正当竞争法》第2条所规定的“经营者在生产经营活动中,应当遵循自愿、平等、公平、诚信的原则,遵守法律和商业道德”。
当然,也存在思路不同的判决。在HiQ诉领英案中, HiQ公司对领英网站实施了网络爬虫,但加利福尼亚北区地区法院的法官认为,这种爬虫行为并不违反法律,因为领英网站上的数据是公开数据,对于公开数据,即使违反对方设置的robot协议,也应当是被法律允许的。这就像在白天推开一家未锁门的商店进去看看,并不能将其认定为非法侵入。 因此,法院最后不仅没有认定HiQ公司的爬虫行为违法,甚至反过来认定领英的反爬虫技术违法,要求领英公司移除针对HiQ的接入壁垒。
使得网络爬虫中的数据争议变得更为复杂的是,网站的数据常常来自个人,因此网络爬虫又常常面临数据隐私的问题。例如,在上文提到的新浪诉脉脉案中,新浪对于脉脉公司的指控除了脉脉违反其robot协议,还包括脉脉公司的网络爬虫未得到用户的授权。在HiQ诉领英案中,领英也提出了数据隐私保护的问题,指出HiQ对于领英数据的爬虫会影响个人的数据隐私保护。对于抓取网络平台上的数据是否需要个人授权,法院也给出了不同的判决,例如,在HiQ诉领英案中,法院认为爬虫并不会影响公民的隐私保护,但在新浪诉脉脉案中,法院则明确了平台授权之外用户授权的必要性。
在今日头条与微博的网络爬虫与数据之争中,今日头条突出了用户具有的个人数据权。在该争议中,微博认为其网站数据被今日头条非法爬虫,但今日头条认为此类数据属于用户,不属于微博,只要用户授权,网站就可以名正言顺地进行爬虫。今日头条认为其爬虫不具有违法性,因为头条页面具有邀请用户授权的选项,只有当用户开通此功能选项,授权今日头条抓取用户发在微博的数据后,头条才会进行网络爬虫,帮助用户将微博所发布的内容定期自动发表在头条旗下的产品微头条上。
二、数据权属的四种观点
通过上文对若干数据爬虫案例的简介分析,我们现在可以对数据权利归属的观点进行归纳,对于拥有大量个人数据的平台,可以将平台数据权属的类型或观点归纳为四种。
(一)数据个人所有
数据权属的第一种类型或观点是数据属于用户个人。在上文提到的今日头条与微博之争中,今日头条的意见是此种观点的典型代表。今日头条认为,微博并不具备对用户数据的任何权利,因此只要爬虫是在用户授权的情形下进行的,那么即使头条违反了微博的robot协议,此类行为也不违法。毋庸置疑,微博可以起诉用户特别是某些大V用户违反协议,因为微博的使用协议写明了微博享有对用户内容的独家使用权,而且微博和某些大V还签订了非常明确的合同。这样一来,微博用户特别是大V用户在使用微博平台发布内容又授权今日头条使用时,微博就可以起诉,要求法院认定此类行为属于违约。但即使法院如此认定,今日头条也可以声称今日头条的行为并不违法,用户与大V行为可能违法,但他们违法与今日头条无关。
事实上,如果强化用户数据个人所有权,将用户对个人数据的权利更多视为人格权而非财产权,或者将此种权利视为法定的消费者权利,那么微博设置的用户协议可能自始无效。一旦将数据个人所有权视为不可让渡的人格权,那么数据的收集者与使用者就不得限制这种数据权利的自由行使。就像私人之间不得通过合同限制公民对个人姓名的自由使用一样,企业也无法通过合同而要求个人放弃其数据权利。
欧盟新近确立的数据携带权可以被视为这种个人数据权利的另一佐证。如果认同欧盟《一般数据保护条例》中所确立的数据携带权,那么平台不仅不能对个人数据进行限制,还需要对个人数据的自由流转提供帮助。《一般数据保护条例》规定,“数据主体有权获取其提供给控制者的相关个人数据”,而且,这种个人数据格式应当是“经过整理的(structured)、普遍使用的(commonly used)和机器可读的(machine-readable)”,数据主体有权“从其供给的一个控制者那里无障碍地将此类数据传输给另一个控制者。” 按照这一数据权利,个人甚至可以要求微博对其他平台开放端口,以实现其个人数据的自由移转。
(二)数据平台所有
数据权属的第二种类型或观点是数据属于平台。此种观点最为典型的是今日头条与微博之争爆发后微博所发布的新用户协议,该用户协议规定,“用户在微博上发布的信息,包括但不限于文字、图片视频、音频等,不论微博内容是否构成著作权法意义上的可保护客体,用户同意不可撤销地授权微博平台作为微博内容的独家发布平台,用户所发表的微博内容仅在微博平台上予以独家展示”。这一新用户协议实质上将数据的权属界定为平台所有,排除了用户对于微博内容进行再次授权使用的权利。
可以想见,数据完全归属平台的观点并不受欢迎。在微博发布新的使用协议后,这一协议就受到了用户与媒体的猛烈抨击,而微博也对这一新的使用协议进行了澄清,并且修改了用户使用协议。更新后的用户协议规定,用户对于其所发的内容拥有版权与著作权,微博作为发布平台只享有一定范围的使用权。用户对于自己具有完全权利的内容可以根据自己的意愿发布到其他平台,无须微博批准、审批、同意。但即使如此,更新后的用户协议仍然强调,未经微博平台同意,自行授权、允许、协助第三方非法抓取已发布的微博内容,仍然属于违法。因此,调整后的微博用户协议意味着微博不享有相对于用户的数据权利,但享有相对于其他平台的数据权利。
(三)数据个人与平台共有
数据权属的第三种类型或观点是数据属于个人与平台共有。在中国法院的判决中,这是较为常见的一种观点。例如,在新浪诉脉脉一案中,法院认为,数据开放的前提是必须获得用户个人与平台的同时授权。而且,法院为了强调个人数据保护的重要性,还提出了“用户授权”+“平台授权”+“用户授权”的“三重授权”模式,即数据的提供方首先取得用户同意而收集数据,在数据提供方向第三方平台授权使用此类信息时,第三方平台还应当明确告知用户其使用的目的、方式和范围,再次取得用户的同意。法院的这一判决理由意味着,个人和平台对于数据都拥有一定的权利主张,数据在一定程度上为个人与平台所共有。
当然,在数据个人与平台共有的情形中,个人与平台的权力划分与权利边界仍然是一个问题。在具有竞争关系的网络平台进行爬虫时,双重授权或三重授权的规定具有较强的合理性,而且也具有较强的现实操作性,但在其他场景下,要求平台与个人进行双重授权或三重授权可能会面临种种困境。例如,个人将平台的数据用“复制—粘贴”的方式大量拷贝到其他平台,此种行为显然没有获取平台的授权,但此种行为是否违反了数据的共有产权?此外,当平台所属的网络发生产权变更时,此时产权的变更是否需要获取用户同意?2018年,人人网被出售给多牛传媒公司,其出售的资产包括了用户数据,但在这一出售过程中,人人网并没有履行征求用户同意的环节。无疑,要求人人网出售前征求所有用户的同意,这并不现实。
(四)数据公众所有
数据权属的第四种类型或观点是数据属于公众所有。这种观点认为,一旦平台介入互联网,就意味着平台数据具有了公共属性,不为任何私人或企业所有。在上文提到的HiQ诉领英案中,HiQ公司聘请了哈佛大学法学院的劳伦斯•却伯(Laurence Tribe)教授作为顾问,却伯教授认为,数据与信息的访问权是一种言论自由的权利,受到美国《宪法》第一修正案的保护。根据这种观点,数据的本质其实是一种言论,而言论的本质就是流通与共享,具有公共属性。因此,对数据的抓取就不需要网络平台授权或个人授权。
对于互联网的公共属性,网络法学者奥林•科尔(Orin Kerr)教授曾经有过经典描述。在他看来,互联网的一般原则是开放性,这种开放性允许世界上任何人发布信息或数据,数据可以被任何人访问,而无须进行身份验证。当计算机所有者决定在其机器上设置Web服务器,使文件可以通过Web访问时,这就推定了大众都可以访问这些文件。科尔教授还打了一个比喻,把网络服务器连接到互联网就像在公开交易会上出售商品,任何人都可以访问网络上的数据或交易会上的商品。 只有在比较特殊的情形下,例如当网站设置密码时,网页才会从开放网页转化为封闭网页。
我国的互联网评论家方兴东曾表达过类似的看法。方兴东认为,从互联网的前身阿帕网(ARPAnet)到后来的TCP/IP协议,以及一系列网络治理机制和技术标准组织,“都坚定地确立了互联网开放、共享、自由、平等的核心价值观和技术规则”与“无歧视、无选择、无条件的互联互通”。但当前中国互联网行业对数据与流量却采取了越来越多的“高筑墙”行为。因此,方兴东认为,无论是淘宝拒绝百度搜索店铺页面信息,百度试图通过Robots协议拒绝360搜索的“3B大战”,微信频频对滴滴、淘宝、今日头条、抖音等竞争对手进行选择性的屏蔽,还是百度大规模自我导流,甚至不再显示搜索结果中外部网站的地址,都与互联网的精神背道而驰。
三、数据权属:法律条文与教义分析
平台数据权属的四种观点哪个更有道理?对此我们可以首先从法律条文与法律教义的角度分析个人数据权利与企业数据权利的界限,而这种分析将表明,个人数据与企业数据的权利界限均不明确。
(一)个人数据权利
首先,个人数据的范围、个人数据权利均存在很大的不确定性,这使得平台数据中的受保护的数据范围存在不确定性。本来,中国与世界其他各国的法律都规定了个人数据保护的法律,企业、社会与政府也都对个人数据保护的优先性具有一定的共识。例如,在腾讯与华为数据之争、菜鸟与顺丰数据之争、今日头条与微博数据之争等案例中,各方都视个人数据保护为重中之重,各方都强调获取用户的授权。但问题在于,用户在平台上所生产的各种数据是否属于个人数据?在不同应用场景下的个人数据是否都应当受到同等程度的保护?
按照个人数据或个人信息的通行定义,个人数据或个人信息为已识别个人或可识别个人的数据。例如,我国《网络安全法》规定个人信息是指“以电子或者其他方式记录的能够单独或者与其他信息结合识别自然人个人身份的各种信息。” 欧盟《一般数据保护条例》将个人数据界定为“任何已识别或可识别的自然人相关的信息”。 但按照这一通行的定义,网络平台的各类用户所产生的数据却既可能属于个人数据,也可能不属于个人数据。这是因为,平台的用户数据既可能直接识别个人或结合其他信息间接识别个人,也可能基本无法识别个人。是否可以识别个人,这高度取决于具体应用场景、识别主体与识别难度。以平台的用户评论数据为例,此类数据在平台上匿名化显示之后,对于一般人可能难以识别。但如果结合该用户的其他购买记录、行踪轨迹等信息之后,此类数据就有可能变成可以识别个人的数据。而对于该用户周围的人群来说,甚至可能单凭一条用户评论就可以识别个人。
此外,个人数据权利的边界也存在不确定性,个人很难确立对于自身数据的排他性权利。数据隐私的思想创立者阿兰•威斯丁(Alan Westin)曾经将数据隐私或信息隐私界定为个人对于信息的控制。 这一思想框架后来被各国与各地区的立法所接受,构成了当前各国各地区的数据隐私法的基本思路。但问题在于,在不同国家和地区、不同场景下,法律对个人进行数据赋权的差异巨大。法律可能赋予个体数据访问权、数据安全权等权利, 也可能赋予上文所提到的被遗忘权、数据携带权等新型权利。无论是各国之间还是专家学者都未对此问题达成共识。
个人数据的这些不确定性特征使得个人数据与企业数据的权利边界变得难以划分,甚至使得一些初看上去较为明确的划分也可能会面临质疑。例如,在关于企业数据的研究中,不少研究将数据区分为原始数据与加工数据,认为原始数据常常包含个人数据,而加工数据则由于加工和去标示化而不再属于个人数据。例如基于个人数据而进行统计的数据,人们常常会认为其不属于个人数据,其权属应当属于企业。但此类区分还是会面临一些挑战。如果赋予个体数据删除权,个体要求彻底删除其个人数据,或者个体明确要求撤回对其个人数据的处理,那么企业基于原始数据而得出的加工数据或统计数据可能就会面临争议。
(二)平台数据权利
就平台的数据权利而言,对照各国法律对于企业数据的保护,可以发现各国法律与法律教义对于平台数据的保护也存在很多争议,对于平台数据权利的边界不具备共识。
首先,数据库法律保护与知识产权难以为平台数据权利划定边界。从性质上看,平台数据最接近于数据库,都是海量数据的集合。但对于数据库的保护,各国首先就有很大的分歧。美国的数据库保护只涉及数据库中的原创性汇编的要素,对数据库中的事实部分,法律不加以保护。在费斯特(Feist Publ’ns, Inc. v. Rural Tel. Serv. Co.)案中,费斯特在未经许可的情况下将一本电话号码汇编全部进行了拷贝,对于此种行为,美国最高法院认为,此种行为并不违反版权,版权只保护对数据进行原创性汇编的部分,不保护事实。而与美国做法不同的是,欧洲除了对数据库的原创性汇编部分进行保护之外,也为数据库的特殊权利(sui generisrights)提供保护。 根据这一特殊权利保护的规定,当“创造数据库需要足够的人力、技术和财政资源”时,数据库就受到法律保护。 一旦数据库被创造出来,他人就不得使用或复制数据库的全部数据或大部分数据。
知识产权与相关法律之所以对数据库权利存在分歧,其中重要原因就在于数据的多重属性。一方面,数据库的制作者无疑对数据的收集与编排付出了大量的工作。从劳动创造财产权的经典理论出发,数据库理应得到财产权或类似于财产权的保护。在美国历史上,下级法院也曾经在判决中认同了“额头汗水(sweat of the brow)”或“勤劳收集(industrious collection)”的教义,认为如果数据库制作过程中对数据收集付出了大量劳动,那么它们就应当得到法律保护。但另一方面,数据又具有非常强的公共属性,并非付出了劳动,数据本身就应当变成法律上的私有财产或知识产权。因为相比起其他动产或不动产,数据具有明显的非排他性与非竞争性:数据很难为个人所独自占有,公众对于数据的使用也不会对数据产生损耗。美国联邦最高法院明确否定了下级法院的“额头汗水”的教义,即强调版权保护只及于创新部分,而数据本身仍然应当维持公众所有。美国联邦最高法院明确,如果法律对数据库的保护延伸至基础数据,这将“损害版权法的基本原理”。
其次,合同法也很难为平台数据权利确定边界。Robot协议是否可以构成合同要约,这在各国的司法与法律教义上均存在很大争议。Robot协议可以被视为一种合同的意思表示,对外传递当事人的意愿,但当爬虫方阅读了这种告示之后,是否就意味着合同已经成立?在法律实践中,各国对于此类单方告知的合同常常做出不同的判决,例如,对于软件安装包内的格式合同或拆封许可(shrink-wrap license),有的法院认为,当推定消费者可以看到此类告示而继续选择安装软件时,此时单方告知就能被视为合同;但在另外的法院判决中,法院则又认为此类合同无效。
从性质上来说,Robot协议非常类似于中国很多小商铺上挂的“同行免进” “××类人免进”的告示。对于此类告示是否可以被认为合同要约,私法上并无确切答案。一方面,此类告示具有一定的合理性,因为它符合了私主体的意思自治原则,明确传递了商家的意愿。但另一方面,此类告示也可能被认定为自始无效。如果此类告示针对的是特定的人群,此类告示可能会被认定为违反民法上的公序良俗原则而无效,或者也可能会被认定为违反公法上的反歧视原则而无效。 此外,即使此类告示具有合同要约的效力,这也不等于看到告示牌的人就同意了这一告示,看到告示牌的人可能会将这一告示等同于善意提示而非要约,因此进入商铺内部查看并不等同于合同成立。
再次,从侵权法与刑法的角度看,违反Robot协议是否属于侵权或者侵入计算机系统,这也没有明确标准。从一般侵权责任来说,其构成要件包括加害行为、行为人过错、损害事实和因果关系,但在数据爬虫的情形中,很难说存在损害事实。在大部分情况下,网络平台之间的数据爬虫都是持续性和长时间段的,不会占据被爬虫网络平台的过多流量或造成被爬虫网络平台的网速变慢。而从普通法上的非法入侵(trespass)或我国《刑法》上的非法获取计算机系统数据罪来看, 数据爬虫是否属于非法侵入计算机系统,本身就取决于法律如何界定数据爬虫的性质。
科尔教授曾经从线上线下对比的角度对互联网非法侵入问题进行系统分析。科尔教授将网络企业设置的反爬虫技术障碍(如Robot协议、设置验证码、设置密码)类比为线下世界的无力障碍(商店设置告示、栅栏、关门、锁门)。 科尔教授指出,此类物理障碍或网络技术障碍是否不可逾越,非法侵入的边界如何确定,法律并不提供规范性的规则指引。如同科尔所言,“和物理世界一样,计算机非法侵入的特点是文本并不能提供指引。法律文本禁止未经授权不得访问计算机,这就像非法侵入法规定,未经授权不得进入物理空间一样。”无论是在物理世界还是线下世界,“法律的含义都依赖于社会所理解的相关空间中信号所传递的访问权限,法院必须根据对相关侵入规范的理解来确定不同空间的规则”。
最后,从不正当竞争法的角度来看,不正当竞争法也面临类似的问题。在我国当前的网络数据争议中,不少案件都援引了《反不正当竞争法》第2条关于商业道德的规定。 例如,在新浪诉脉脉案、 大众点评诉百度案中, 法院都以数据爬虫违反商业道德和不正当竞争作为判决理由。但需要指出的是,法院的判决主要建立在对具体个案与具体场景的判断之上,《反不正当竞争法》本身并没有对何谓商业道德给出非常刚性的规则指引。如同很多专家所言,不正当竞争法需要借助其他法律规定与商业习惯来确定何谓不正当竞争,反不正当竞争法本身常常具有很大的不确定性。
四、数据权属:实用主义的后果分析
如果说法律条文与法律教义分析无法为数据权属问题提供确切答案,那么基于实用主义的后果分析是否可以确立数据的权利归属?结合上文所总结的数据权属的四种观点,可以发现任何一种观点都无法完全成立。
首先,将数据权属完全配置给个人是不现实的,将产生极高的交易成本与沟通成本。如果个人对数据拥有完全的产权,那就意味着平台或个人对此类数据的访问都需要获得个人同意。在这种制度设计下,搜索引擎等普通网络爬虫行为将无法运转,甚至连个人对于他人数据的阅读也属违法。此外,将数据权利完全界定为个人所有,这也将架空平台对于数据所享有的某些权利,使得平台无法进行某些正常的商业活动。例如,平台就无法和大V等用户签订独家使用协议;人人网出售其网站就不但是非法的商业活动,甚至还可能构成侵犯公民信息罪。
其次,将数据权属完全配置给平台,这也不符合常理。对此,上文已经有所论述。数据平台所有不仅可能对个人的著作权等知识产权权利造成影响,而且可能无法保护公民的数据隐私。即使是公开的互联网上的数据,也并不意味着这些数据就可以被第三方平台随意使用。关于这一点,最为著名的例子当属Facebook所涉及的剑桥分析公司事件。在此事件中,剑桥分析公司通过一款App收集了30万的用户信息,并通过Facebook的授权而获得了这30万人的朋友圈约5000万人的信息。 这些信息虽然都是在网上公开的,但其公开显然有特定的对象和场景。剑桥分析公司在未获得用户同意的情况下收集这些信息,并且在完全不同的场景下利用这些信息,构成了对用户数据隐私的侵犯。
再次,将数据权属配置给个人和平台共有,将存在类似的妨碍数据流通与数据共享问题。如同上文所说,当平台进行数据交易或共享时,此时可能面临难以获取用户同意的困境。而当普通用户希望转移其个人数据时,如果需要获取平台的同意,那么这种转移也将很难实现,因为很多平台可能不愿意看到用户的流失,就像微博在其用户协议中所规定的那样。总之,数据个人与平台共有,这会进一步增添数据流通与数据共享的制度成本。
最后,将数据认定为公共产品,这虽然可以促进数据流通与数据共享,但却可能无法保护个人数据权利与平台的合理数据权益。一方面,互联网的公共性与互联网的联通性并不意味着公开性的个人数据就不存在隐私问题,也不意味着这类数据完全属于公共产品。在具体场景中,个人数据完全可能遭遇一系列数据隐私问题,而个人数据也可能是个人“数字劳动(digital labor)”的产物,凝结了个体的劳动与付出。 另一方面,平台也在平台搭建与数据收集过程中投入了大量的资金与劳动,如果对企业的正当数据权益不加任何保护,那么此种制度设计就可能出现经济学上所说的搭便车行为,无法保护和促进投资和维护市场的竞争秩序。
数据权属无论配置给哪一方都存在问题,深层次原因在于,数据的属性往往高度依赖于具体场景。数据与普通物品不同。一件具体的物品,在不同的场景下性质基本不变,都受到法律上的物权或财产权的保护,但数据在不同的场景中可能呈现完全不同的特征。同样的一组数据,在不同的场景中对于不同的对象而言可能分属不同类型的数据。以社交网络中的用户数据为例,此类用户数据对于朋友圈的对象来说无疑属于公开数据,因为这类数据的本意就在于朋友圈的传播。但对于平台与第三方企业来说,此类用户数据又属于数据隐私所保护的对象,因为其中包含了大量可识别的个人信息。此外,对于具有竞争关系的第三方平台而言,此类用户数据的集合又具有类似数据库的性质,或者需要法律的某种保护。因为此类数据具有极高的商业性价值,而且平台为此投入了大量的资金,付出了大量的劳动。
五、数据权属的场景化界定
(一)数据权益的场景化保护
数据权属问题高度依赖场景,这意味着,维护个人数据权益与企业数据权益必须采取场景化的保护方式。通过在具体场景中确定数据的性质与类型,并根据具体场景中各方的合理预期来确定相关主体的数据权益,这是解决数据权属与数据争议的更好方式。
在数据隐私的学术研究中,个人数据的场景化保护进路已经为很多学者认可。例如,以隐私场景理论著称的海伦•尼森鲍姆(Helen Nissenbaum)教授曾经指出,数据隐私保护的基本原则与关键在于实现数据的“场景性公正”(contextualintegrity), 即要在具体场景中实现个人数据与信息的合理流通。 尼森鲍姆的理论之所以影响巨大,其理论中的“尊重场景”(respect forcontext)成为奥巴马政府时期起草的《消费者隐私权利法案》的指导思想,最重要的原因就在于其理论契合了个人数据保护的基本特征。另一个例子是数据隐私法的权威学者丹尼尔•索洛夫(Daniel Solove)的隐私分类理论。索洛夫借用维特根斯坦的语境理论,指出隐私并不存在一个核心或本质特征,保护隐私实际上是保护具体场景中的某些个人权益不受侵害。此外,阿里•瓦尔德曼(Ari Ezra Waldman)教授也指出,不能以个人权利来理解隐私与个人信息或个人数据,因为隐私问题的本质在于信任,其权利的边界需要根据具体场景中的合理期待来确定。
在实践中,个人数据保护也采取了场景化的保护进路。在美国,联邦层面没有对个人数据保护进行太多立法,但美国联邦贸易委员会(FTC)通过执法在具体案例中逐渐确立了数据隐私保护的规则。 这种保护方式无疑是高度场景化的,以至于有的学者将其总结为普通法的保护模式。在欧洲,尽管《一般数据保护条例》等法律设立了很多关于个人数据保护的规则体系,但这些规则体系实际上犬牙交错,相互抵牾冲突之处比比皆是;同时,这些规则还常常受到法律原则的约束。因此,即使欧洲采取了统一立法的模式,但这一立法并未确立个人数据保护的明确边界,未来欧盟个人数据保护的走向仍然取决于具体场景与具体个案中的规则演进。
以场景化的视角看待个人数据保护,一些数据权属难题就会迎刃而解。以上文提到的Facebook与剑桥分析公司丑闻案与人人网出售案为例。以非场景化的个人数据保护观来看,很难解释为何剑桥分析公司对于某些个人数据的利用成了丑闻,而人人网整体的个人数据的控制者转移却没有引起过多争议。从场景化的个人数据保护视角,则可以非常容易理解二者的差别。在Facebook与剑桥分析公司的案例中,Facebook与剑桥分析公司对某些个人数据的利用打破了个体的合理预期,而且并未获取个体的同意,这才造成了数据隐私保护的失败。而在人人网的出售案例中,人人网出售前虽然也并未征求个体的同意,但由于人人网的出售并没有改变个人数据所使用的场景和预期,因此即使人人网的出售行为改变了网站数据的控制者,此种行为也并未直接对个人数据隐私造成威胁。只要人人网的购买者承担起个人数据保护的责任,在个人的合理预期内使用平台数据,个人的数据隐私就能得到合理的保护。
企业或平台数据权益也更宜采用场景化的保护进路。在关于数据爬虫争议的司法实践中,中国与美国所援引的法律依据有些差别。中国的法院更多采取了以竞争法的方式保护平台数据,而美国的法院则更多诉诸英美法与制定法上的非法侵入(trespass)。但二者在场景化保护这一点上其实具有相似之处。我国竞争法的保护方式非常强调个案判断与不同案件的类比推理,强调从个案中提取和制定规则,而不是从统一规则中寻求法律答案。而美国法上的非法侵入概念也同样非常依赖于具体场景,何谓非法侵入,何谓对数据的合理访问与利用,这取决于具体场景与具体个案中的多种不同因素。
从法理上说,对平台数据权属采取场景化的保护,这实际上是以理性规则(rule of reason)——而非规则本身(rule per se)——来对数据权利问题进行判断。对于法律争议,传统的法律领域常常强调法律规则的重要性,主要通过规则与例外规则的设定来划分各方的权利边界。但在竞争法、反垄断法等领域,国外的法律更多以理性规则与个案判断来确定各方权利。之所以以这种方式来设定各方的权利义务,其原因在于此类问题的争议往往更依赖具体场景(context-specific),更难依赖脱离场景的规则来进行确定。就数据而言,由于数据问题的高度场景化特征,采取理性规则无疑将更有利于对个人数据和企业数据进行更为合理的保护。
(二)数据权属界定的因素考量
在实体问题判断中,平台数据权属的场景化界定需要考虑一系列因素。第一,应当将数据隐私保护作为最为重要的考虑因素之一。在数据隐私会给个人带来较大风险或打破个体合理预期的情形下,应坚持数据隐私合理保护相对企业数据权益的优先性。这是因为,一旦个人数据隐私得不到合理保护,不但个人的合法权益无法得到保障,企业也会丧失来自用户与消费者的信任。
第二,在保障个人数据隐私的前提下,应注重促进数据的共享与互联互通。数据的共享与互通不但无损于数据本身的价值,而且更可能发挥数据的规模化优势,真正发挥大数据的功能,并为人工智能产业提供坚实基础。毕竟,所谓的大数据,其最主要的特征就是“高容量,快周转、 多种类”, 离开了数据的共享与流通,大数据以及人工智能的发展就是无源之水。
此外,我们更要认识到数据共享与流通的国际战略意义。在可预见的将来,中国互联网企业必然会逐步进行海外拓展,而在这种拓展过程中,数据的获取与使用必然是重要的战略环节。制定符合数据特征的数据共享与流通制度,将有利于中国互联网企业在东南亚、一带一路等国家的战略布局。
第三,应根据爬虫平台与被爬虫平台的性质、爬虫行为的特征等因素来确立不正当竞争与合理使用的边界。就爬虫平台一方而言,当爬虫平台一方具有公益性或具有公共基础设施的性质时,应当更多允许爬虫平台进行数据爬虫。例如,对于搜索引擎的数据爬虫,美国与欧盟等地区都确立了对于搜索引擎的数据开放立场,即使对于受版权保护的信息与数据,搜索引擎对其的数据爬虫行为也被认为属于合理使用的范围,因为搜索引擎具有信息公共基础设施的性质,搜索引擎的数据爬虫无疑有利于数据的公共传播与利用。
而就被爬虫平台的一方而言,应当考虑被爬虫平台一方的数据体量与数据性质。当被爬虫的一方数据体量巨大,而其中的数据又属于原始数据或基础数据时,此时应当更多允许第三方的数据爬虫与数据合理使用。这是因为,当超级网络平台收集海量数据后,此时数据的潜在垄断就会成为可能。如果赋予此类平台过强的数据保护,其结果就可能出现所谓的数据割据或数据封建主义,无法实现数据共享与数据的普惠性。在数据库的例子中,这样的问题已经出现。在美国与欧洲,一些学术数据库巨头掌握了学术论文的垄断性,要想查看论文常常需要花费不少的金额;在中国,由中国知网(中国期刊全文数据库)所引发的垄断问题也引起了越来越多的批判。 如果数据资源不能实现总体性的开放共享与有序流通,那么中小型互联网企业就会面临数据壁垒,互联网领域就无法形成有效的竞争。
就爬虫性质而言,在其他因素相同的情况下,当某个平台爬虫后将数据用于和被爬虫平台类似的商业场景中,此时应当倾向于认定数据爬虫的不正当竞争;而当数据爬虫的目的是为了对数据进行进一步处理或在其他场景下对数据进行利用,此时应当倾向于认定数据爬虫的合理使用。这是因为,前一种行为并没有对数据进行创造性的利用,也没有为消费者提供差异化服务,其对数据的爬虫完全是一种搭便车行为,不利于构建良好的市场竞争环境。相对而言,第二种数据爬虫行为虽然也具有搭便车的因素,但鉴于数据较强的公共属性和此类服务的创新和差异化服务,此时应当更多倾向于认定数据的合理使用,或者应当更为慎重地认定为不正当竞争。
当然,确定数据爬虫属于不正当竞争还是合理使用,需要考虑的因素还远不止以上因素。例如,还需要结合具体场景中的商业习惯与行业惯例来判断企业的合理预期。这些多种因素的判断无疑给司法与法律判断增加了难度,但从另一个角度来看,多种因素的综合性分析将使得司法对此问题的分析更为全面与融贯,更能符合法律的整体性解释。
六、结语
对于由平台数据爬虫而引发的数据权属问题,可以归纳为四种观点:平台数据属于个人所有;平台数据属于平台所有;平台数据属于个人与平台共有;平台数据属于公共所有。但本文研究后发现,从法律条文的角度分析或从法律教义的角度分析,无论哪种观点都无法得到支持。从后果主义的角度分析,也可以发现无论把平台数据配置给哪一方都不合理。
平台数据的权属之所以无法明确界定,关键在于数据具有多重性质,而其性质又往往依赖于具体场景。在有的场景下,平台数据属于个人数据范畴,需要数据隐私法的优先保护;在有的场景下,平台数据具有类似数据库的性质,需要类似数据库权益的保护;而在其他场景下,平台数据又具有公共性,需要法律保障数据的共享与流通。
从数据的多重属性与场景化特征出发,需要确立数据的场景化保护与场景化确权。无论是个人数据保护还是企业数据权益的合理保护,都需要注重通过自下而上的个案来推动数据保护规则的制定与演进,而非过于依赖自上而下的规则制定。就法理而言,这意味着对数据权利应当基于理性规则进行确定,而非寻求放之四海而皆准的统一规则。
在实体判断层面,平台数据权属的界定需要考虑多种不同因素,既需要考虑数据隐私的优先保护,考虑合理保护平台数据权益,又要特别注意促进数据的共通共享。既需要考虑数据领域的搭便车行为与不劳而获,又要注重数据的公共性。既需要防止平台的不合理竞争,又需要防止数据垄断与数据壁垒。如此,互联网才能实现数据的合理流通与合理保护的双赢。
编辑:张凉
|