周四,主要图书出版商阿歇特图书集团和圣智学习集团提交动议,要求介入去年针对谷歌提起的集体诉讼。该诉讼指控这家科技巨头策划了“历史性的版权侵权”来构建其 Gemini 平台。
这抱怨加州联邦法院提起的诉讼指控谷歌“选择窃取原告和集体诉讼成员的大量内容来训练其人工智能模型”,而不是获得适当的许可,并在开发的“每个阶段”都进行了蓄意侵权。
合并案件最初是已提交2023 年,一些作者提起集体诉讼,指控谷歌复制书籍来训练其生成式人工智能模型,这是一起拟议的版权集体诉讼。
出版商声称,谷歌从盗版网站下载书籍,然后在人工智能训练过程中反复复制这些书籍,首先复制到计算机内存中,然后复制到人工智能系统可以读取的格式中,最后复制到每个新模型版本的训练集中。
诉讼称,谷歌的 C4 训练数据集包含从 Z-Library(一个盗版资源库)抓取的受版权保护的作品,当局已从中查获了 350 多个网站和域名。
出版商指出,这些书籍是从 b-ok.org(一个 Z-Library 域名,现在显示联邦查封通知)以及 OceanofPDF 和 WeLib(另一个拥有大量未经授权的受版权保护内容的网站)复制而来的。
起诉书指出,C4 数据集包含来自至少 28 个网站的作品,这些网站被美国政府认定为盗版和假冒产品的市场。
投诉中写道:“版权符号 (©) 在 C4 数据集中出现了超过 2 亿次”,并指出谷歌涉嫌排除“政策声明”和“使用条款”警告,但却包含了“大量受版权保护的作品、盗版作品以及从付费墙后获取的作品”。
出版商指控谷歌从 Scribd.com 等付费图书馆复制作品,规避了合法的许可协议。
当被问及这种做法时,非营利数据集提供商 Common Crawl 据称采取了“责怪受害者”的心态,宣称“如果你不想让你的内容出现在互联网上,你就不应该把它放到互联网上。”
诉讼称,Gemini 现在生产的产品“替代了受版权保护的作品”,包括逐字复制品、详细摘要和“抄袭原创作品创意元素的仿制品”。
解密已与谷歌和出版商的法律顾问取得联系。
谷歌同时应对反垄断诉讼彭斯克媒体公司就其人工智能概述功能提出抗议,这家科技巨头声称,显示人工智能生成的摘要构成“合法的产品改进,而不是反竞争行为”。
出版商寻求法定赔偿、禁止进一步侵权的禁令,以及要求谷歌销毁所有未经授权的作品副本并披露哪些书籍被用于训练 Gemini 的命令。
此次介入动议是在一系列作者于2023年对人工智能公司提起的版权诉讼之后提出的,这些诉讼中,联邦法官做出了一些部分胜诉的判决。元和人类学法院裁定,他们使用受版权保护的书籍来训练模型属于版权法规定的合理使用,但批评这些公司保留了永久的盗版书籍库。