【案例】
转载 | AI训练数据版权之争:出版商集体诉讼Anthropic案
[url=]出版科学 [/url] 2025年09月08日 以下文章来源于E出版 ,作者小E E出版 . 由武汉大学与高等教育出版社主持的中国教育出版研究中心主办,武汉大学数字出版研究所协办。记录当前全球出版业的创新、探索与变革,汇集全球有趣、有料的产业观点。 一场针对人工智能开发商Anthropic的集体诉讼进展迅速,其结果或对人工智能与版权领域产生重大影响。美国出版商协会(The Association of American Publishers , AAP)积极协调并支持多家出版商联合应对此次挑战。 图片来源 —— 盖蒂图片社(Getty):Sittipol Sukuna 01 案件缘起与核心指控 此案是出版商对美国旧金山人工智能公司Anthropic提起的集体诉讼。今年 8 月,案件出现新的转折点,也为公众提供了深入了解此案的契机。有分析认为,这起诉讼可能对「使用未经授权的版权内容训练大型语言模型」的行为产生实质性影响,尤其当这些内容源自盗版网站时。 2024 年 8 月 19 日,多位作者以涉嫌利用受版权保护作品训练模型为由起诉Anthropic。他们指控Anthropic从盗版网站Pirate Library Mirror(Z-Library的镜像站点)及LibGen复制了约 700 万册书籍的文本内容。 Anthropic由OpenAI(ChatGPT开发商)前员工于 2021 年创立,其核心产品是名为Claude的大型语言模型,该公司一度以「人工智能伦理与安全开发」的理念自我标榜,但在当前侵权指控的背景下,这一定位显得颇具讽刺意味。 由于出版商和作者组成的集体诉讼规模庞大,Anthropic在辩护中声称,若向出版商和作者支付赔偿金,可能导致该人工智能公司破产。 《财富》杂志一篇文章中写道:「针对Anthropic的集体诉讼可能会使这家人工智能公司面临数十亿美元的版权损失,原因是该公司涉嫌使用LibGen和PiLiMi等影子图书馆(将内容开放提供给大众的一类在线数据库,大多侵犯了著作权)的盗版书籍来训练其模型。……法律专家警告称法定赔偿金可能从 10 亿美元到逾 1000 亿美元不等。」 02 法律探讨:合理使用的界限 在生成式人工智能(AIGC)的创作流程中,训练阶段通常需借助爬虫技术抓取在先作品以构建训练数据集,其生成结果亦存在与在先作品构成实质性相似的可能性。此类使用行为是否构成著作权侵权、侵权责任应如何认定,也是当前学界重点关注与研讨的核心议题。 AIGC著作权侵权争议的核心,在于训练阶段对在先作品的使用是否可纳入著作权法中的「合理使用」范畴。在美国版权法第107条中,合理使用被设定为一种限制版权专有权的平衡机制。该条款规定在某些情境下,公众对作品的使用无需获得版权人许可。对「某些情境」界定的四大判断因素包括: (1)使用目的与性质:是否具有商业性,还是用于教育、批评、评论、新闻报道等公益性目的?是否属于「转化性使用(transformative use)」,即对原作品的性质与用途进行实质性改变? (2)受保护作品的性质:文学、学术、艺术作品的保护力度不同。未出版作品一般受到更严格保护。 (3)所用部分的数量与实质性:使用的数量是否过多?是否涉及作品的「核心精华」? (4)对潜在市场或作品价值的影响:使用是否会损害版权人市场,替代原作品? 在出版业中,第四因素往往最受关注,因为未经授权的复制可能直接影响出版社的经济利益与市场。 6 月,美国加利福尼亚州北区联邦地区法院资深法官Alsup曾就「合理使用」问题作出裁决,当时他部分支持Anthropic,作出了简易判决,认为使用受版权保护的作品训练大语言模型属于「具有典型转化性」的合理使用行为——即并非直接复制原作,对原作品的性质与目的作出实质性改变。法官裁定,Anthropic使用受版权保护作品训练人工智能属于美国《版权法》第107条规定的「合理使用」范畴。但同时,该判决表示Anthropic从网络盗版网站下载数百万本受版权保护的作品、用以构建「核心数据库」的行为不构成合理使用,不受法律保护。 7 月,法官还针对人工智能公司Anthropic的集体诉讼作出「集体认证」裁定。此次批准的集体认证,覆盖了作品曾被从两大盗版资源库LibGen与PiLiMi下载的作者群体。 03 机构助力:美国出版商协会的支持 8 月 11 日,美国出版商协会(AAP)主席兼首席执行官Maria A. Pallante发布了一份备忘录,澄清法官已于 7 月 17 日「批准了包含出版商和作者的集体诉讼,以解决所有权问题」。 她强调,出版商或与此案存在直接利益关联:「Anthropic涉嫌侵权作品或达数十万至数百万篇,涉及数千名著作权人(含作者与出版商),各出版社及旗下作者均可能被纳入该集体诉讼。」 根据法官的定义,Pallante向出版商明确了集体诉讼的适用范围。凡对Anthropic在 2021 年 7 月通过LibGen、2022 年 7 月通过PiLiMi下载的任何书籍,享有该书籍复制专有权的实际所有权或法定所有权的权利人均属此列。其中「书籍」需满足:拥有ISBN或ASIN编号,且在美国版权局的注册时间距出版不超过 5 年、早于Anthropic下载行为或在出版后 3 个月内。 Pallante还向出版商传递了几个关键信息。一是支持出版商与作者的律师事务所规模扩大,集体诉讼或规模庞大且需快速准备。相关律所包括新增的Edelson PC(集体诉讼律所)、Oppenheim + Zebrak, LLP(O+Z,版权律所),二者以「出版商协调律师」身份加入。二是出版商与作者无需向律所支付自付费用或额外开支。三是新增律师作用在于助力集体利益无冲突地充分代理,具体包括代表出版商立场、协助庭审准备与策略制定、参与庭审、整理集体名单、发出集体通知及推进和解谈判。四是AAP团队承担「出版商协调律师」与「集体中的出版商成员」的联络职能;协会内大型出版商已与律所直接对接,协会可为其他有意对接的出版商牵线。 她明确,此案为集体诉讼,原告方集体诉讼律师对作者和出版商负责,而「出版商协调律师」则专门代表出版商的利益,共同推动为集体成员争取单部作品最大赔偿。据估算,若诉讼成功,单部作品法定赔偿额将在 750 美元到 15 万美元之间。 此外,AAP 虽不提供法律建议,但可与出版商探讨各选项的实际影响。「对选择留在集体诉讼的出版商,确保其获得关于技术、程序的清晰信息,并确保其利益得到充分的代理。」 04 最新进展:双方初步和解 根据 8 月 27 日公布的法庭文件,Anthropic已与集体诉讼中的作家们达成初步和解,这一进展标志着当前史上最重大的人工智能版权诉讼案之一迎来关键转折。此举将帮助Anthropic规避可能在法庭上面临的财务毁灭性后果。这份和解协议预计将于 9 月 3 日敲定,更多细节将后续公布。原告代理律师在接受采访时表示:「这一具有历史性意义的和解将使所有集体诉讼成员受益。我们期待在未来几周内公布和解协议的细节。」 结 语 正如《科技杂志》一篇文章所指出的,这一事件可能成为企业利用未经授权的版权内容训练大型语言模型的「清算时刻」。Anthropic 并非唯一卷入此类法律纠纷的人工智能公司。目前,在该领域的版权侵权诉讼已有数十起,包括 OpenAI、Meta平台公司以及人工智能搜索引擎企业Perplexity Inc. 等,均陷入类似纠纷。出版商、作家、媒体公司和唱片公司对人工智能开发商提出的侵权索赔仍在持续增加。此案最终结果将深刻影响人工智能发展与版权保护的未来博弈格局。有分析认为,「许多人工智能公司当前的商业模式,即未经付费或许可使用所有人的知识产权,并以‘推动可持续创新和公共利益’为由正当化自身行为,很可能很快在经济上难以为继。」 来源:出版科学 编辑:梅镕缨
|