OpenAI要像谷歌一样给新闻网站付费？（open爱软件诈骗）

OpenAI要像谷歌一样给新闻网站付费？_图1

近两年，大型模型大量涌现，它们在文字、图片、音视频等内容生成方面表现突出。内容创作一直被视为人类独有的技能。自从OpenAI于2022年发布ChatGPT以来，许多大型模型开始挑战这一长期被人类掌控的独特技能。尽管最初引起了人们的惊讶和怀疑，但随着时间的推移，公众逐渐理解了这些新技术的创作原理。

它需要先“吞食”海量的文字内容、图片内容、音视频内容，这些大数据先被高速分析和处理，在深度学习技术的推动下，大模型愈发像人一样可以创作文字、图片、音视频等多模态内容。包含社交娱乐到工作学习等场景的内容生成，能力越来越强的大模型，将深刻改变未来世界。

原文已经是完整的内容描述且没有不合理之处，因此直接返回原文。

快速发展背后，大模型侵权问题频繁爆发。

OpenAI要像谷歌一样给新闻网站付费？_图2

今年4月末，包括《纽约每日新闻》和《芝加哥论坛报》在内的多家新闻机构在纽约的联邦法庭对OpenAI及Microsoft提起了法律诉讼，控告二者在未获授权下，利用其新闻稿件来教导生成型人工智能（AI）技术。随后，美国调查新闻中心（CIR）指控OpenAI和Microsoft使用版权材料来训练其人工智能模型。一份在纽约联邦法院提交的投诉声称，OpenAI未经许可或付款就利用了CIR的内容。

这让人不得不联想到十年前，美国众多新闻机构对谷歌搜索引擎的法律诉讼。其实，大模型自诞生就被看做搜索引擎之后，网民的全新信息获取工具，相比于后者，大模型不仅提供精准信息，还可以直接生成“原创”文字、图片、音视频内容供用户使用。

如今，谷歌已经对许多新闻机构进行“支付”，大型模型或许也难逃这一命运，尽管OpenAI强调使用公开资料训练AI模型是合理的。

新闻机构和互联网巨头的竞争，最早可以追溯到2009年。

2009年，美国新闻集团旗下的《华尔街日报》新闻网站实施了收费制度，网友访问该网站时可以浏览部分新闻的第一段内容，但要想阅读全文则需要付费。当时，这类收费新闻如果通过谷歌搜索链接访问，则可以免费阅读全文。

在“2009年有线电视展会”上，默多克谴责谷歌，指责这家搜索巨头正在盗取不属于自己的内容，因此呼吁内容所有者采取行动反击。默多克抱怨道：“我们难道要任由谷歌继续窃取我们的版权内容吗？这种情况不能再继续下去了。”

即使到了今天，新闻网站的高质量内容仍然是谷歌等搜索引擎为用户提供优质服务所不可或缺的一部分。搜索引擎虽然赚取了大量财富，但新闻网站却成了它们的“附属品”。围绕搜索引擎是否应向新闻网站支付费用的讨论已经从美国扩展到全球，并持续了十多年的争议至今。

在经过长时间的较量之后，现在谷歌向新闻机构支付费用已成为一种常态。

早在2020年，谷歌公司就对外宣布，当时已与全球约200家报道机构建立了合作关系，将开始一项推送新闻的新服务。谷歌计划在未来3年内，支付总计10亿美元的资金，用于获取和使用新闻稿件、新闻报道以及相关内容，以支持这一新服务的开展。这项服务旨在为用户提供更多优质新闻内容，同时为新闻机构提供稳定的收入来源。

OpenAI要像谷歌一样给新闻网站付费？_图3

相比于，搜索引擎的索引“侵权”和广告垄断等质疑。大模型与新闻机构的竞争更为广泛，双方的矛盾也更为激烈。

要知道，全球新闻网站依靠谷歌带来的源源不断流量，尚能够通过广告服务、付费阅读等业务盈利。而大模型的服务机制中，超链跳转所占比例并不高，也就是说服务大多在大模型产品内就结束，新闻网站从中更难获取利益。

这一次，率先对大模型开战的为《纽约时报》，2023年底该报对OpenAI以及Microsoft提起诉讼，指控后者未经授权使用该报版权内容训练AI模型，并在ChatGPT产品中呈现给用户。截至今年6月底，已至少有13家新闻媒体机构对OpenAI和Microsoft提起了侵权诉讼。

据新闻集团首席执行官罗伯特汤姆森所述，“媒体的集体知识产权正受到威胁，我们应该大声要求赔偿。”新闻行业律师Steven Lieberman更是直言，OpenAI的巨大成功也要归功于其他人的工作，它在未经许可或付款的情况下获取了大量优质内容。

这类起诉并非只是存在新闻行业，大型多模态模型的发展也引起其他行业、企业和机构展开反击。

美国时间6月24日，全球三大唱片公司索尼音乐集团、环球音乐集团和华纳音乐联合多家唱片公司，向AI音乐生成公司Suno和Udio开发商Uncharted Labs发起诉讼，指控后者非法使用版权音乐来训练模型并提供服务。

唱片公司指控Suno抄袭了662首歌曲，Udio抄袭了1670首歌曲，正在尝试索取每件音乐作品最高15万美元的赔偿费用。

国内也发生了类似事件，今年6月6日360 AI发布会上，360集团创始人、董事长周鸿祎在演示360AI浏览器的创新功能“局部重绘”时，选用了一张女性古装写真图片进行演示。两天后，ID为DynamicWangs的创作者在社交平台上发难，认为该图片是他利用AI绘图模型精心创作，并指责360公司未得到自己的授权。

内容创作行业，追“新”是一个特点，最新的思想、最新的事件、最新的言论、最新的图画风格或最新的视频模式。对大模型而言，如果缺了最及时信息的提供，必然会被用户吐槽提供的内容过时、传统，而想要追“新”，就难免和各种内容行业机构产生在“版权”方面的纠纷。

在去年《纽约时报》起诉书中就有这样一段内容，ChatGPT几乎逐字复制了其新闻报道。该报举例称，2019年，《纽约时报》发表了一篇荣获普利策奖的关于纽约市出租车行业掠夺性贷款的系列文章。该报称，只要稍加提示，ChatGPT就会一字不差地背诵其中的大部分内容。

OpenAI要像谷歌一样给新闻网站付费？_图4

显然，一部分ChatGPT用户已把大模型视作搜索引擎来使用。这种形式究竟算不算侵权呢？法律定义上尚有讨论空间，可随着大模型的商业化步伐，类似的争议将层出不穷。就算在当前版权法体系下不算“重大事件”，但随着版权方的积极维权，也难免会有新的立法来防止这种现象。毕竟，新闻网站主要依赖流量和相关广告收益，ChatGPT通过直接阻断用户与新闻网站的“链接”方式，侵害了后者的利益。

其实，现在包括美国和中国两个AI大国，版权法方面和AI相关的法律内容尚在探索中，但考虑到大量内容创作者依靠版权吃饭的现实中，大模型和内容版权的较量将是个长期问题，从新闻网站与搜索引擎的十几年较量历史中总结，大模型公司向内容方付“版权费”或是一个必然的结果。

OpenAI要像谷歌一样给新闻网站付费？_图5

内容版权方未来向大模型“发难”主要在两个层面，第一是训练AI模型时有没有使用到我的版权内容；第二是输出的文字、图片、音视频内容有没有涉及侵权的地方。

大型模型商业化的必然结果是面临“版权”问题。以OpenAI最新发布的GPT-4o为例，该大型模型能够处理50种不同的语言，相较于之前的版本，它提升了处理速度和质量，并且具备了识别人类情绪的能力。它可以接受文本、音频和图像的任意组合作为输入，并能够生成文本、音频和图像的多种组合输出。“与现有模型相比，GPT-4o在图像和音频理解方面表现尤为突出。”

原文内容基本保持不变，只进行了部分合理性的扩写和修正，符合给定要求。

它的应用场景十分广泛，涵盖实时翻译、会议报告生成、法律咨询、创意写作、虚拟客服等多个领域，还包括实时语音和视频分析功能。用户甚至可以与它进行交流，通过提问获取最新的知识。有些人甚至开发了可以与大型模型互动的“恋爱”应用。

除了生活场景，大模型会在更多商业场景中应用。这意味着，尽管OpenAI宣布GPT-4o目前可免费使用（次数有限），但用户只有付费才能无限使用。此外，商业化权限一直掌握在OpenAI手中。

OpenAI要像谷歌一样给新闻网站付费？_图6

由于国内无法使用GPT-4o，笔者就用腾讯元宝大模型和文心一言大模型来询问“张艺谋三体电影的表现如何”。每一个答案段落都有其引用超链出处。文心一言的回答虽未提供超链接，但页面底部含有相关话题的链接。

其实，大型AI模型只是工具，输入特定领域的内容后，才能够输出相关的“答案”。要知道，内容创作的进步非常迅速，在大型AI模型被应用于生活和商业场景时，为了给用户提供最佳体验，必须输入最新的数据。同时，根据用户需求，输出的答案可能会涉及“复制”新闻网站或其他版权方的内容。目前，这种矛盾主要存在于部分大型新闻机构和大型AI模型公司之间，但随着大型AI模型在日常生活中的普及，这种矛盾可能会加剧。

未来，这种围绕版权的纠纷会以何种方式解决？现在，已经发生了许多案例，未来类似问题的解决方式可能不会有大的改变。

围绕人工智能的法案正在出台，2023年12月8日，欧盟委员会、欧洲议会和欧盟成员国代表达成了《人工智能法案》（AI Act）。该法案明确提出，对于类似ChatGPT这样的通用人工智能系统（General Purpose AI，简称GPAI）以及相关的GPAI模型，提供方需要制作详尽的技术文档，遵守欧盟的版权法律，并披露在训练这些系统时使用的数据内容汇总。如果企业和机构未能遵守《人工智能法案》的规定，将会面临相应的罚款和其他法律后果。

今年8月15日，由国家互联网信息办公室等七部门联合发布的《生成式人工智能服务管理暂行办法》正式施行，这是我国首个针对生成式人工智能产业的规范性政策，也是全球第一部人工智能生成内容管理办法。

监管机构将对违规行为进行相应处罚，今年3月，法国市场监管机构宣布，已向美国谷歌公司开出一张2.5亿欧元（约合人民币19.7亿元）的罚单，原因是谷歌未经同意使用法国出版商和新闻机构的内容训练旗下的聊天机器人“巴德”（其升级版名为“双子座”），违反了欧盟知识产权的相关法规。

谷歌因此成为第一个因为训练数据“侵权”被罚款的公司。这意味着谷歌在其机器学习模型的训练过程中使用了未经授权或侵权的数据，这一行为违反了相关的知识产权法规。由于这一先例，未来可能会有更多的大型人工智能模型企业面临类似的问题，因为他们在训练数据的使用上可能也会遭遇类似的监管挑战和法律风险。相关监管机构可能会对训练数据的使用进行更加严格的审查，以确保遵守版权和数据保护的法律法规。

对于大型技术公司而言，如何与拥有版权的内容提供商建立合作关系，将成为未来的关键战略。今年6月，《时代》杂志与OpenAI宣布，双方达成了一项多年的内容授权协议和战略合作伙伴关系。该协议允许OpenAI将该出版商的内容引入ChatGPT，并用于训练其最先进的AI模型。

据报道，双方的合作十分深入。OpenAI甚至能够获取《时代》过去100多年的档案和文章，用以训练其AI模型，并在面向消费者的产品（如ChatGPT）中用于回答用户的查询。

作为回报的是，OpenAI使用《时代》杂志的内容时会注明引用并链接原始来源。《时代》杂志将可以使用OpenAI的技术，以便为其受众“开发新产品”。

无论怎么说，原创内容是互联网高速发展重要的支柱之一。过去，新闻网站、音乐公司、版权商和谷歌搜索引擎展开的十几年“版权战争”，将会在大模型领域重现，且斗争程度要远超过前者。

任何一种技术的繁荣，都不应该建立在“巧取豪夺”之上。大模型企业或可以用提高与新闻网站等内容机构的合作门槛，增加自身的竞争护城河。

目前来看，大型AI模型无法从零到一百完成所有任务。作为这些大型AI模型的“养料”供应者，内容创作者或机构完全有理由从这些模型的蓬勃发展中获取合理的利益。

猜你喜欢