AI搜索已经在污染互联网。(ai查找未嵌入文件)

AI搜索已经在污染互联网。_图1

让用户吃石头,给披萨涂胶水,Google AI 搜索翻车的事情还近在眼前。

号称要颠覆 Google 的 Perplexity,紧接着也出了问题。

AI 搜索相较于ChatGPT,具备联网功能,可以引用可靠的信源,不太容易产生虚假信息。

但如果,信源本身就是不可靠的呢?

人工智能搜索,已经在引用另一个人工智能搜索了

「林黛玉倒拔垂杨柳」的梗很多人都听过,最近在重温水浒传,我灵机一动,用中文问 Perplexity,「林黛玉的性格和鲁智深的性格有什么相似之处」。

回答得平平无奇,但引用来源出现了一个意想不到的角色:字节豆包,抖音旗下的 AI 助手。

AI搜索已经在污染互联网。_图2

这难道是什么新奇的商战形式吗?点进去发现,内容就是用户和豆包的聊天记录,AI 回复得还很八股文。如果质量写得比营销号好就罢了,写成这样是罪加一等。

AI搜索已经在污染互联网。_图3

当我直接在 Google 搜索同一个问题,豆包又来刷存在感了,并且高居第二,和 Perplexity 引用的不是同一条,但点进去还是以”首先”和”其次”打头的废话连篇。

AI搜索已经在污染互联网。_图4

之前 The Information 报道过,Perplexity 使用应用程序编程接口(API)访问有关必应和谷歌搜索排名的数据,这些数据对于网页的相关性、质量和权威性起着决定性的作用。

换言之,如果豆包容易被 Google 搜到,可能也就更容易被 Perplexity 引用。这就让人好奇了,为什么豆包可以出现在搜索引擎?

换言之,如果豆包容易被Google搜索引擎检索到,那么也就更容易被Perplexity引用。这让人不禁好奇,为什么豆包会出现在搜索引擎中呢?

当我登录豆包网页版的最新版本时,我发现一个默认勾选的选项:允许搜索引擎收录并在搜索结果页显示分享的内容。

AI搜索已经在污染互联网。_图5

以上体验发生在五月三十一日下午两点。六月一日十九点,字节回应爱范儿,豆包已更新,内容分享到搜索引擎,不是默认勾选,是用户主动选择可以被搜索引擎抓取。

同时,字节表示,针对一些问答内容被搜索收录,实际是有人使用虚拟账号创建的高质量问答内容,不是真实用户。目前已经进行了清理,现在在进行Google搜索时,只有5条来自本站的结果。

AI搜索已经在污染互联网。_图6

让用户和 AI 的聊天记录被索引,豆包似乎是开了先例。Perplexity、天工、秘塔、360 AI 都可以将聊天记录以链接形式分享,但没有看到类似豆包的选项。

让用户和 AI 的聊天记录被索引,豆包似乎是开了先例。Perplexity、天工、秘塔、360 AI 都可以将聊天记录以链接形式分享,但没有看到类似豆包的选项。这些平台都提供了将聊天记录以链接的方式分享的功能,但没有像豆包一样的特殊选项。

ChatGPT也支持以链接分享对话,但承诺只是用于个人之间的共享,不会被公开展示在互联网的公共搜索结果中。

AI搜索已经在污染互联网。_图7

早年的「内容农场」是指一种通过盗取或拼凑他人文章的方式,快速生产大量内容的行为。这些内容农场会利用关键词优化和频繁更新等SEO(搜索引擎优化)策略,以此来抢占搜索页面的前排位置,从而获取更多的流量和广告费用。

那时候,内容贡献者还是真人,每天创作大量文章,但现在轮到了AI,通过复制、粘贴、洗稿和批量产出,其生产能力完全超越了人类。

「林黛玉倒拔垂杨柳」「鲁智深唱葬花吟」本不是事实,说的人众多,权威性也提高了,也就成了 AI 搜索眼中的事实,引用的来源,是知乎、抖音、简书用户编造出来的生动有趣的故事。

AI搜索已经在污染互联网。_图8

如果信源成了人工智能(AI),结果只会更加惨烈。想象一下,更多由AI生成的内容被Google收录,AI搜索参考Google的搜索排名,然后最终呈现在用户面前的,就是由AI叠加AI生成的垃圾结果。

被投喂的人类,只能通过不断修炼来提升自己的洞察力,从冗长的言辞中筛选出有价值的实用信息。

80 分的人工智能搜索

平心而论,我仍然很喜欢 Perplexity 等人工智能搜索产品,它们在 ChatGPT 之后,再次提高了我的工作效率。

人类提出问题,它们通过搜索、摘要和撰写来进行处理,这已经成为一个成熟的工作流程。我们现在需要付出更少的努力,但却能够获得更高的效率。

大部分的情况下,人工智能搜索的表现还是相当不错的。Google人工智能翻车,一部分原因应该是急于推出功能,只顾着提高Reddit在搜索中的权重,没能让人工智能反思结果是否符合常识。

当我使用相同的问题让 Google AI 进行搜索时,输入 Perplexity,我得到了比较令人满意的结果。

关于「人一天吃多少石头」,Perplexity 能够准确地找到洋葱新闻的信源,再解释这是胡说八道,不像Google AI 搜索把洋葱新闻当成可信来源。

AI搜索已经在污染互联网。_图9

还有「披萨的奶酪容易滑落怎么办」,Google AI搜索之前建议加点胶水,Perplexity 显然更加聪明,先给出一些合理的办法,在我追问能不能加胶水之后,精准地找到了误导Google AI 搜索的 Reddit 帖子,说这是在开玩笑。

为了让结果更严谨,Perplexity 甚至跑去亚马逊搜索了一番,表示它只搜到各种无毒胶水产品,没找到任何关于这些胶水能用于食品的信息。

AI搜索已经在污染互联网。_图10

相比于Perplexity,Google显然在模型能力方面并不逊色,而是在后续的工程和产品化方面存在差距。

AI 搜索从原理上来说,是先通过搜索引擎获取信息,然后对这些信息进行总结和整理。与不联网的聊天机器人相比,AI 搜索的幻觉更少,因为它可以通过不断搜索和学习来提供更准确的答案。AI 搜索的核心技术之一是 RAG(检索增强生成),它能够通过结合检索和生成的方法来生成更具有相关性和准确性的搜索结果。

RAG(Retrieval-Augmented Generation)结合了信息检索和生成模型,信息检索根据用户查询,从庞大的文档库中找到相关信息;生成模型则将这些检索到的文档作为上下文,生成更加准确和详细的回答。

这里的文档库,可以是传统搜索引擎的索引库,也可以是包括法律等专有数据库、社交媒体等用户生成内容在内的各种类型的数据库。

AI搜索已经在污染互联网。_图11

如果网页上充斥着大量由人工智能生成的低质量内容,就会对人工智能搜索的RAG(Relevance, Authority, and Goodness)产生负面影响。

那么,面对气势汹汹的 AI 生成内容,AI 搜索的下半场,可能就是继续比拼模型之外的工程能力,较量数据源质量和搜索能力,包括能不能搜到更多网页,搜到更权威的网页,或者整合财报等专有信息。

AI搜索的下半场,可能会继续竞争除了模型之外的工程能力,比如提升数据源的质量和搜索能力,包括增加搜寻到更多网页的能力,找到更权威的网页,或者整合财报等专有信息。

目前的情况是,我们越来越离不开人工智能搜索。如果说传统搜索依靠关键词和手工打开链接的方式得分为40分,而容易胡说八道的大模型得分为60分,那么联网的人工智能搜索将标准提高到了80分。尽管仍然会出现错误,但一旦体验过,就无法回到过去了,所以不必完全否定它。

花样引用信源,AI 搜索的商战

除了司空见惯的网页,人工智能搜索产品们似乎都有一个共同的想法:提供多种形式的信息来源。

360 AI 可以找到各种类型的视频资源,包括电影、电视剧、纪录片等。

秘塔可以找到各种类型的播客和学术论文,涵盖了广泛的主题和领域。

Perplexity 可以搜索 Reddit 和 YouTube 上的各种内容,包括帖子、评论、视频等。

然而,人工智能搜索更多是为了提供一个引子,以便获取更多详细内容。但是,我们仍然不能偷懒,需要亲自去查看信息的来源。

AI搜索已经在污染互联网。_图12

同时,还有一个有趣的现象,许多应用程序正在推出内嵌的人工智能(AI)搜索功能,比如小红书内测的「搜搜薯」、微信读书的「AI 问书」,这些应用在现有的生态系统中发掘了AI的应用场景。从这个意义上说,这些应用也可以被称为AI搜索产品。

AI搜索已经在污染互联网。_图13

2 天前突然出现的腾讯元宝 app,基于混元大模型,整合了AI搜索、AI总结、AI写作等功能,从一开始就备受关注。

因为它拥有微信公众号平台、腾讯新闻平台等丰富的资源,而公众号被认为是中文互联网上质量较高的内容集合。

比如,输入标题,搜索某篇具体的公众号文章,腾讯元宝可以给出较好的总结,并推荐更多相关的公众号文章。反之,用豆包等人工智能技术,抓取的是公众号内容的分发渠道,并且总结得也比较简洁。

AI搜索已经在污染互联网。_图14

再结合豆包让 AI 内容在搜索结果页显示的操作,我们似乎又被提醒了一次移动互联网的内容分布情况。

再加上豆包的操作,让AI内容能够在搜索结果页上展示,这似乎再次提醒了我们移动互联网中内容分布的情况。

在移动互联网时代,与之前的门户网站时代不同,各个应用程序之间相互独立,也很难被搜索引擎抓取。举个例子,如果输入公众号文章的标题进行搜索,搜索引擎无法找到原文,只能看到文章在各个分发渠道上的展示。

同时,在传统搜索引擎上,广告等干扰项很多、低质量的营销号内容也很多,我们渐渐习惯了,系统看教程上 B 站,生活琐事提问用小红书,找文章用微信搜一搜。

AI搜索已经在污染互联网。_图15

而在人工智能搜索产品、人工智能生成内容越来越多以后,以后可能又出现这样的局面——网页内容越来越良莠不齐,以数量取胜,而高质量的内容一如既往地保持封闭,变成了垂直人工智能搜索的护城河。

除了大而全的多模态人工智能搜索,可能也会有越来越多优秀的专注于特定领域的人工智能搜索涌现。

比如,学术搜索引擎 Consensus 口碑较好,拥有超过 2 亿篇优质论文,这些论文都是可靠的信息来源。此外,Consensus 还结合了 AI 驱动的分析能力,能够提供准确的答案,并引用相关研究。

我向 Consensus 提问「锻炼能提高认知能力吗」,他们并没有立即给出结论,而是提供了一个摘要和一个表格,以回答这个问题。

AI搜索已经在污染互联网。_图16

我们对于人工智能搜索的期待是,在人类语言交流的互动过程中,以更快的速度提供更优质、更多样化、更具可视化效果、更个性化的内容,能够回答更加复杂和具体的问题。

然而,与此同时,搜索的内容和生态也正在被人工智能(AI)破坏,仿佛隐喻了人工智能的正反两面。

未来,人工智能生成的内容肯定会越来越广泛。在正反两方的争议中,人们对于如何找到更有用的信息,是更困难还是更简单,仍然存在争议。尽管期待着能够立即使用AI生成的完美内容仍然是一个遥远的梦想,但将AI视为工具,并发挥自己的主观能动性,可以帮助人类避免伤心和失望。

0
分享到:
没有账号? 忘记密码?