Meta被控使用盗版书籍训练Llama,五大出版巨头联合提起集体诉讼
5月10日,据路透社报道,一场围绕Meta人工智能模型Llama训练数据的重大版权诉讼于本周正式浮出水面,引发了全球科技与出版界的广泛关注。该诉讼指控Meta大规模使用盗版书籍训练其AI大语言模型,标志着AI训练数据版权争议进一步加剧。
诉讼由爱思唯尔、麦克米伦、麦格劳·希尔、阿歇特和Cengage五大出版集团,以及畅销书作家斯科特·图罗联合发起,于5月5日向美国纽约南区联邦地区法院提交了集体诉讼诉状。诉状中,原告方将Meta首席执行官马克·扎克伯格一同列为被告,并指控他“亲自授权并积极鼓励了侵权行为”。美国出版商协会主席玛丽亚·帕兰特对此批评称:“Meta的大规模侵权绝非公共进步,如果科技公司将盗版网站置于学术研究和想象力之上,人工智能将永远无法得到正确实现。”
从技术细节来看,诉状指控Meta的工程师团队在构建Llama的训练数据集时,系统性地从多个臭名昭著的“影子图书馆”及盗版渠道获取了受版权保护的完整作品。这些渠道包括LibGen、Z-Library以及基于开源搜索引擎的盗版聚合平台Anna’s Archive等。起诉书还进一步揭露,Meta内部曾讨论过高达2亿美元的数据授权预算,但最终为了节省成本而选择了强行抓取数据,并寄希望于未来能够凭借“合理使用”的原则在法庭上获得辩护。
此案的爆发具有深远的行业影响。就在2025年,相似的法律逻辑曾为Meta带来了部分胜利,美国联邦地区法院在“卡德雷等人诉Meta公司案”中认定,使用版权作品训练大语言模型的行为在一定程度上构成合理使用。然而,本次诉讼提出了更为明确的市场替代证据,指出Llama能够生成直接与原著竞争的衍生内容。例如,当输入斯科特·图罗畅销书《无辜》的部分章节后,Llama随即生成了几乎完整的续集段落。这起由出版商联合体发起的法律行动,有望为AI训练的数据合规与版权保护设立全新且更为严苛的法律界限。