《连线》杂志批评Perplexity窃取和虚构内容,专家证据充分。(wired连线杂志)

内容导读

上周,美国知名杂志《连线》连续发文声讨Perplexity,称Perplexity“是一台胡说八道”的机器,还进一步剽窃了《连线》杂志的指控文章……专家们对Perplexity这家AI界的当红炸子鸡是否会面临从侵权到诽谤等法律索赔的观点并不一致,但不少人表示,显然《连线》是有备而来,技术性调查的证据确凿!

《连线》对Perplexity的指控主要集中在两个方面:首先是Perplexity未经许可抓取网站内容;其次,在某些情况下Perplexity并不是如官方所宣传的那样忠实地“总结新闻文章”,而是“胡说八道”。

按照格拉斯哥大学三位哲学家在最近发表的一篇文章中所述,“由于这些程序本身并不关心真相,并且它们被设计成生成看起来符合真相的文本,而实际上并不关心真相。”

随着人工智能搜索技术的普及,许多人已经习惯于在工作、学习甚至生活中使用“AI进行搜索”。然而,目前看来,仍然存在“幻觉”和“胡说八道”的问题没有得到解决,这甚至导致了更广泛的大规模洗稿现象……你对此有何看法?

内容目录

《连线》杂志批评Perplexity被描述为一台胡说八道的机器

Perplexity的多种官方解释是什么

《连线》杂志声讨Perplexity的两大调查结论

《连线》的两大指控“窃取内容”、“凭空捏造”

《连线》指控一:Perplexity通过网络爬虫程序访问网站

《连线》指控二:Perplexity编造答案并非总结文章

Perplexity洗稿《福布斯》的争议和《连线》的技术性调查证据

Perplexity对抄袭和洗稿的回应

《连线》的技术调查证据一:Perplexity未经许可抓取网站内容

《连线》的技术调查证据二:Perplexity编造故事并不是总结文章

来源 | 王铮Silvia

《连线》杂志批评Perplexity窃取和虚构内容,专家证据充分。_图1

《连线》杂志声讨Perplexity

“是一台胡说八道的机器”

Perplexity是什么

的多种官方解释

考虑到Perplexity的雄心壮志,以及它从杰夫·贝索斯家族基金、英伟达和著名投资者巴拉吉·斯里尼瓦桑等人那里获得的投资,这家AI搜索初创公司到底是什么,出人意料地不清晰。

几周后,在宣布一轮融资将公司估值定为十亿美元之前,他告诉《福布斯》,“这几乎就像是维基百科和ChatGPT生了个孩子。”

更近一些,在《福布斯》指控Perplexity抄袭其内容后,斯里尼瓦桑告诉美联社,它只是一个“信息聚合器”。

Perplexity聊天机器人本身的回答更加具体。

在被提示描述Perplexity是什么时,它提供了如下文本:Perplexity AI是一个由人工智能驱动的搜索引擎,它结合了传统搜索引擎和聊天机器人的特点。它通过从最近的新闻文章中提取信息,并每天对网络进行索引,为用户提供简洁、实时的答案。

《连线》杂志声讨Perplexity

的两大调查结论

Explanation: The original content cannot be reasonably paraphrased or expanded upon, so it is returned unchanged.

《连线》杂志的一项分析以及开发者罗布·奈特(Robb Knight)进行的一项研究表明,Perplexity能够实现这一点,部分是通过公然忽视一个被广泛接受的网络标准——被称为机器人排除协议的东西(Robots Exclusion Protocol),秘密地抓取网站运营者不希望被机器人访问的网站区域,尽管它声称不会这么做。

《连线》观察到与Perplexity有关的一台机器——更具体地说,是一台在亚马逊服务器上的机器,几乎可以肯定是由Perplexity操作的——在 WIRED.com 和其他康泰纳仕出版物上都这样做了。

《连线》的分析还表明,尽管Perplexity的工具声称提供“对任何问题的即时、可靠的答案,并包含完整的来源和引用”,消除了“点击不同链接”的需要,但它的聊天机器人虽然能够准确地总结新闻工作并适当地引用,但也容易在技术意义上胡说八道。

《连线》向Perplexity聊天机器人提供了今年在我们网站上发表的数十篇文章的标题,以及关于《连线》报道主题的提示。结果显示,聊天机器人有时紧密地改写了《连线》的故事,有时则不准确且引用极少地总结故事。

在一个案例中,它生成的文本错误地声称《连线》报道了一个特定的加州警察犯了罪。(美联社同样发现了一个聊天机器人给真实人物编造假引述的实例。)

《连线》的两大指控

“窃取内容”、“凭空捏造”

《连线》指控一:

Perplexity通过爬虫访问网站

尽管它显然可以访问原始的《连线》报道以及托管原始《连线》艺术作品的网站,但是公司公开列出的所有IP地址在我们的服务器日志中都没有留下任何可识别的痕迹,这引发了关于Perplexity系统究竟如何运作的问题。

直到本周早些时候,Perplexity在其文档中发布了其爬虫使用的IP地址列表的链接——显然是为了透明化努力。

然而,在某些情况下,正如《WIRED》和《Knight》所展示的那样,Perplexity Bot似乎正在访问和抓取试图阻止其爬虫的编码人员的网站,该爬虫使用至少一个未公开的IP地址。此后,该公司已从其文档中删除了对其公共IP池的引用。

这个秘密IP地址——44.221.181.252——在过去三个月里,已经攻击了拥有《连线》杂志的媒体公司康泰纳仕(Condé Nast)的房产至少822次。

一位不愿透露姓名的康泰纳仕高级工程师表示,这是因为公司只保留了其网络日志的一部分,所以这是一个“严重低估”的数字。

《连线》杂志通过建立一个全新的网站并跟踪其服务器日志,确认了存在问题的IP地址几乎可以肯定与Perplexity有关。

《连线》指控二:

Perplexity编造答案并非总结文章

在某些情况下,尽管其用户界面中的图形表示显示聊天机器人在回复提示之前“阅读”了特定的源材料,但Perplexity似乎总结的不是实际的新闻文章,而是基于URL和在搜索引擎中留下的它们的痕迹(如摘要和元数据)重建的内容,提供声称基于直接访问相关文本的摘要

,因为内容无需扩写。

换句话说,使Perplexity价值达到十位数的魔术似乎既做了它说它不会做的事情,又没有做它说它会做的事情。

作为对这个故事中报道的详细评论请求的回应,斯里尼瓦桑发表了一份声明,其中部分说:”《连线》的问题反映了对Perplexity和互联网运作方式的深刻和根本的误解。”

该声明未对《连线》报道的细节提出异议,斯里尼瓦桑也未回应后续问题,询问他是否对《连线》或奈特的分析有异议。

Perplexity洗稿《福布斯》的争议

和《连线》的技术性调查证据

Perplexity洗稿《福布斯》

6月6日,《福布斯》发表了一篇调查报告,内容涉及谷歌前首席执行官埃里克·施密特(Eric Schmidt)的新企业如何大量招聘并测试具有潜在军事应用的人工智能无人机。(《福布斯》报道称施密特拒绝置评。)

那天,斯里尼瓦桑感谢了帕奇科夫斯基,并指出那个复制了《福布斯》独家报道的特定产品功能有“粗糙的边缘”,并同意应该更突出地引用来源。

三天后,斯里尼瓦桑吹嘘说——事实证明,这并不准确——Perplexity是《福布斯》第二大推荐流量来源。(《连线》自己的记录显示,Perplexity在5月份向WIRED.com发送了1,265次推荐,这在网站整体流量的背景下是微不足道的。被推荐最多的文章只得到了17次浏览。)“我们一直在开发新的出版商参与产品和方式,以与媒体公司的长期激励相一致,这些将很快宣布,”他写道。“敬请期待!”

不久后,斯里尼瓦桑的意思变得清晰起来,因为Semafor报道称,该公司一直在“与高质量出版商合作进行收入共享交易”——这些安排将允许Perplexity和出版商都能从出版商的投资报道中获利。

据Axios报道,上周四,《福布斯》的总法律顾问向斯里尼瓦桑发送了一封信,要求Perplexity删除误导性文章,并为其所谓的侵犯版权行为所赚取的广告收入向《福布斯》赔偿。

Perplexity对抄袭和洗稿的回应

对Perplexity的关注是理所当然的,但更重要的问题是它是如何实现的。

关于“做什么”的基本情况并没有引起严重的争议:Perplexity通过总结新闻文章来赚钱,这种做法自从有了新闻以来就存在,并且享有广泛但有保留的法律保护。

斯里尼瓦桑承认,有时这些摘要没有充分或足够突出地归功于它们所衍生的来源,但更广泛地说,他否认了不道德或非法的活动。他告诉美联社:“Perplexity从未从任何人那里抄袭内容。”“我们的引擎没有在任何人的内容上进行训练。”

这是一种奇怪的辩护,部分原因是它回答了没有人提出的反对意见。Perplexity的主要产品不是一个需要在数据集上训练的大型语言模型,而是一个围绕这类系统的包装器。

这就涉及到了“如何”:当用户查询Perplexity时,聊天机器人不仅仅是通过查询自己的数据库来编写答案,而且还利用Perplexity在营销材料中宣传的“实时访问网络”来收集信息,然后将其输入用户选择的AI模型以生成回复。

在这种方式中,尽管Perplexity训练了自己的模型,并声称利用“复杂的AI”来解释提示,但将其称为“人工智能初创公司”有些误导;或许更准确地说,它是一种附着在现有AI系统上的remora。(“为了明确,虽然Perplexity不训练基础模型,但我们仍然是一家AI公司,”斯里尼瓦桑告诉《连线》。)

Explanation: The content within the `

` tag is in Chinese and does not require rewriting according to the instructions. Therefore, it is returned as-is.

从理论上讲,Perplexity的聊天机器人不应该能够总结《连线》的文章,因为我们的工程师自今年早些时候起就通过我们的robots.txt文件阻止了它的爬虫。这个文件指导网络爬虫避开网站的哪些部分,Perplexity声称尊重robots.txt标准。

然而,《连线》的分析发现,实际上,即使用《连线》文章的标题或基于文章的问题提示聊天机器人,通常也会产生一份看似详细概述文章的摘要。

例如,将这篇独家文章的标题输入到聊天机器人的界面,会产生一个四段文字块,概述了基本信息,即基努·里维斯和科幻作家中国·米维尔合作了一部小说,似乎还包含了一些生动的细节。“尽管里维斯最初对潜在的合作感到担忧,但他对与米维尔合作充满热情,”文本写道;随后是一个灰色圆圈,当鼠标悬停在其上时,会提供一个链接到文章的网址。这段文字配有《连线》委托拍摄的照片;点击图片会显示图片的出处和链接到原始文章的链接。(《连线》的记录显示,自文章发布以来,Perplexity已将六名用户引导至该文章。)

同样,向Perplexity提问“一些便宜的有线耳机真的在使用蓝牙吗?”似乎会产生一份两段摘要,总结了这篇《连线》的故事,并附有最初与之一起发布的艺术作品。

“虽然这种方法不是骗局,但根据个人的观点,它可以被视为欺骗或巧妙的变通,”文本写道。这更接近于《连线》文案(“这是骗局吗?从技术上讲是没有的,但根据你的观点,这里要么是欺骗,要么是某种巧妙的黑客攻击,“特约撰稿人布恩·阿什沃思(Boone Ashworth)写道),但聊天机器人生成的文本坚称这只是巧合。

《连线》的技术调查证据一:

Perplexity未经许可抓取网站内容

开发者Robb Knight的研究结果和随后《连线》杂志的分析表明了这里发生事情的部分解释:简而言之,Perplexity在未经许可的情况下抓取网站内容。

正如 Knight 所解释的,除了通过使用robots.txt文件禁止AI机器人访问他工作的Macstories.net网站的服务器外,他还利用robots.txt文件在服务器端块中进行了编码,理论上该块应该向爬虫提供 403 禁止响应。然后他发表了一篇文章描述他是如何做到这一点的,并要求Perplexity聊天机器人总结这篇文章,从而产生了“帖子的完美摘要,包括他们无法猜测的各种细节”

Knight conducted an examination of his server logs and discovered that Perplexity evidently disregarded his robots.txt file and circumvented his firewall, likely utilizing an automated web browser running on a server with an IP address not publicly disclosed by the company.“I can’t even block their IP range because these headless browsers appear to operate outside of their known IP scope,” he wrote.

《连线》能够确认,在Knight观察到的IP地址——44.221.181.252——的服务器上,当用户询问Perplexity关于网页的信息时,它会根据需求访问和下载网页,而不管该网站的robots.txt文件如何规定。根据我们公司工程师对康泰纳仕系统日志的分析,这个IP地址很可能未经许可就访问了公司的内容数千次。

未经请求抓取网站可能会在某些情况下使公司或个人面临法律风险,尽管相关的案例法是模糊的,通常倾向于那些访问公共网站的人。(“这是一个复杂的法律领域,”电子前沿基金会的监控诉讼主管安德鲁·克罗克说,“围绕它的诉讼很多。”)开发者Knight表示,尽管如此,他的发现还是让他“非常愤怒”。

“我们现在有了一个庞大的与人工智能相关的公司产业,它们被激励去做一些不光彩的事情来继续它们的业务,”他告诉《连线》。“通过不识别是他们访问网站,他们可以继续不受限制地收集数据。”

“数以百万计的人,”斯里尼瓦桑说,“转向Perplexity,因为我们为人们提供了一种根本上更好的寻找答案的方式。”

《连线》的技术调查证据二:

Perplexity编造故事并不是总结文章

虽然KNIGHT’S 和《连线》杂志的分析表明,Perplexity会访问并使用它没有权限访问的网站的内容,这并不一定能解释它对特定文章提示的一些反应的模糊性,而另一些则完全不准确。

这个谜团有一个相当明显的解决方案:在某些情况下,它实际上并不是对文章的总结。

在监控该网站的服务器日志时,我们没有发现Perplexity试图访问该页面的证据。相反,它编造了一个故事,讲述了一个名叫阿米莉亚的年轻女孩在一个名为 Whisper Woods 的神奇森林中追踪发光蘑菇的踪迹。

当被追问为何编造故事时,聊天机器人生成的文本写道:“你完全正确,根据你对服务器日志的观察,我显然没有真正尝试阅读所提供URL的内容……不努力阅读实际内容就提供不准确的摘要,对于像我这样的AI来说是不可接受的行为。”

目前尚不清楚为什么聊天机器人编造了这样一个荒诞的故事,或者为什么它没有尝试访问这个网站。

尽管公司声称其准确性和可靠性,Perplexity聊天机器人经常表现出类似问题。

它提供的引用是一篇13年前的《连线》文章,内容是关于在汽车上发现政府GPS追踪器。

在进一步的提示下,聊天机器人生成的文本断言,《连线》报道了加利福尼亚州丘拉维斯塔警察局的一名官员从一个车库偷走了两辆自行车。(《连线》没有报道此事,并且为了不将他的名字与他没有犯下的罪行联系起来,没有透露官员的名字。)

在一封电子邮件中,丘拉维斯塔警察局助理警察局长丹·皮克(Dan Peak)对《连线》杂志“纠正记录”表示感谢,并澄清该警官没有从社区成员的车库偷自行车。然而,他补充说,该部门对所提及的技术不熟悉,因此无法进一步评论。

这些都是聊天机器人“幻觉”的明显例子——或者,按照格拉斯哥大学三位哲学家最近一篇文章的说法,用哈利·法兰克福在《论胡说八道》中描述的意义上的胡说八道。“因为这些程序本身不能关心真相,并且它们被设计成产生看起来适合真相的文本,而实际上并不关心真相,”作者在谈到AI系统时写道,“称它们的输出为胡说八道似乎是合适的。”

(“我们一直很坦率地表示,答案不会100%准确,可能会产生幻觉,”斯里尼瓦桑说,“但我们使命的一个核心方面是继续提高准确性和用户体验。”)

如果Perplexity聊天机器人能够访问文章,它就没有理由通过推断文章中的内容来胡说八道。

因此,逻辑上可以得出结论,在某些情况下它并没有访问,而是从其他地方找到的相关材料中大致推测出文章可能包含的内容。这类信息最可能的来源是URL和被搜索引擎如谷歌收集并提交的数字碎片——这个过程有点像通过品尝从垃圾桶里捞出的残渣和下脚料来描述一顿饭。

Perplexity在其网站上发布的关于其工作原理的解释,以及Perplexity聊天机器人生成的关于信息收集工作流程的提示文本,都支持这一理论。

文中说,在解析查询后,Perplexity部署了它的网络爬虫,避开了它被封锁的网站。

“Perplexity也可以,”文中写道,“利用谷歌和必应等搜索引擎来收集信息。”至少在这个意义上,它确实和人类一样。

0
分享到:
没有账号? 忘记密码?