垃圾进,垃圾出:破坏自己的内容,挫败人工智能培训

为了满足 ChatGPT 对用于 "训练 "其算法的内容的巨大需求,OpenAI不断宣布与合作伙伴达成重大许可协议,这些合作伙伴包括传统出版业的中坚力量,如 时代《大西洋月刊》(The Atlantic )等传统出版业巨头,以及RedditStack Overflow(及其姊妹网站Stack Exchange,两者可互换使用)等用户生成内容平台。在《纽约时报》、《芝加哥论坛报》甚至《权力的游戏作者乔治-R-R-马丁GeorgeR.R. Martin)等人对 OpenAI 提起诉讼,认为 OpenAI 依靠侵犯版权来训练其人工智能 "模型 "之后,OpenAI 达成交易的步伐加快了。

尽管 OpenAI 积极主动地签订许可协议表明其正式承认版权问题,但这也凸显了用户生成内容的创作者与使用这些内容训练人工智能的平台之间日益紧张的关系。当 OpenAI 通过合同协议在这些法律水域中航行时,用户社区的反应揭示了一系列超出法律形式的担忧。从企业交易到社区反应的转变,凸显了技术进步与用户权利之间复杂的相互作用。

因为他们打不过他们,所以 OpenAI 带着一大笔钱加入了他们的行列。

并非这些交易平台的所有用户都对这些发展感到高兴。Stack Overflow 是程序员的天堂,拥有数千万条详细的用户留言,其中充满了代码、建议和鼓励。

换句话说,就是垃圾进,垃圾出。

动力织布机骚乱

这些铤而走险的 "投毒 "行为让人想起 200 年前的一场骚乱,这场骚乱的起因是一种先进的自动化制造工艺的引入,这种工艺颠覆了传统的生产力观念。(致arstechnica和用户mdrejhon。)

十九世纪初,动力织布机的采用导致英格兰西北部发生骚乱,因为在手工织布机上工作的熟练工匠被新技术取代。这场内乱被称为 "动力织机暴动",包括摧毁新安装的动力织机和动用军队平息骚乱。由于新型动力织布机的操作者成为了技术精英,熟练的手工织布工的收入从每天 16 先令降到了每周 16 先令

法律分析框架

就像动力织布机用来自动生产复杂编织图案的 "编程 "打孔卡(它本身就是所有现代计算机的鼻祖--巴贝奇的分析引擎--的灵感源泉)一样,GPT 及其同类产品的人工智能算法将改写我们对任何特定内容的创作者、作者或设计者的理解--包括对 "拥有 "该内容或拥有控制其使用方式或是否归属于原作者的合法权利的理解。

但是,正如打卡机的作用一样,在人工智能训练中使用庞大的数据集也能带来显著的好处。例如,通过分析大量不同的信息,像 ChatGPT 这样的人工智能模型可以生成更准确、更相关、更符合上下文的响应。这种能力增强了用户体验,使数字助理在各种应用中更有帮助,互动性更强。此外,人工智能处理和理解复杂数据集的能力不断提高,推动了各行各业的创新,带来了更智能、更高效的技术解决方案,造福了整个社会。

版权法、服务条款和用户生成的内容

根据美国版权法,"任何固定在有形媒介上的原创作品 "的作者自动拥有版权。这包括用户在 Reddit 和 Stack Exchange 等平台上发表的帖子和评论。用户保留其内容的版权,向平台授予许可,而不是转让所有权。

如果你听说 Reddit 和 Stack Exchange 的用户拥有其贡献的版权,你就会得出结论:用户拥有法律保护,不会在未经用户同意的情况下使用或滥用这些贡献。问题在于,作为使用这两个网站的条件之一,每个用户都必须同意服务条款协议,该协议赋予了平台对用户内容极其广泛的许可,在合同上赋予了平台对用户内容为所欲为的全权,包括在某些情况下强行阻止用户在事后删除或编辑内容。

Reddit 的条款授予该平台使用、复制和修改用户内容的广泛许可:"向 Reddit 提交内容,即表示您授予我们全球范围内免版税、可转授权和可转让的许可,允许我们使用、存储、展示、复制、修改和创作衍生作品"。

Stack Exchange 还对用户提交的内容保留了全面的许可,用户授予 "永久、不可撤销、免版税、可转授权、可转让的许可,以使用、复制、分发、制作衍生作品、展示和表演这些内容"。

用户投诉和平台反弹

Reddit 用户对自己的内容在未经明确同意的情况下被用于培训 ChatGPT 表示不满,其中一位用户评论说:"这只会让我想删除我所有的帖子,并停止使用 Reddit"。

Stack Exchange 用户也表达了类似的不满,他们的措辞让人联想到 Power Loom Riots 对新技术的破坏。用户Bongle 说,抗议信息不够好。相反,他建议用户编辑之前的帖子,故意在代码中引入错误和漏洞,从而 "巧妙地纠正错误"。

这些投诉凸显了服务条款授予的法律许可与用户期望之间的严重脱节。这种脱节可能会招致法律审查,并要求建立更明确的同意机制。

平台响应

值得称赞的是,Reddit 的服务条款赋予了用户对是否删除其过去贡献的最终决定权:"当 Reddit 用户删除他们的帖子或其他内容时,网站会删除所有地方的内容,不会在意想不到的地方留下残余"。

与此形成鲜明对比的是,Stack Overflow "不允许你删除已接受答案和许多向上投票的问题,因为这会删除社区中的知识",并进一步警告说,"除非在特殊情况下,否则不应删除潜在有用的 "内容。

那么合理使用呢?

如上文所述,在 OpenAI 签订一系列备受瞩目的协议之前,它更熟悉的是被内容公司起诉,而不是与这些公司签订高达八位数或九位数的许可协议。在这些诉讼中,由于没有与公司签订许可协议的双重保护,OpenAI 的命运很可能将取决于法院如何将版权法中的合理使用原则应用到人工智能训练这一新颖的环境中。美国最高法院在 2021 年对谷歌公司诉甲骨文美国公司一案的判决中认定,谷歌在其安卓手机操作系统中大量使用甲骨文公司 11000 多行 Java 代码的行为足以构成合理使用。

至于能否将这种转化性的合理使用分析应用于证明 OpenAI 对培训内容的贪婪是合理的,这将是本文章第二部分的主题。

阅读更多

知识产权法