OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制(open-source code)

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图1

OpenAI再次展示了与谷歌Bard类似的情况,SearchGPT官方震撼演示却被外媒揭露出低级错误另外,一些开发者揭示了内部源码,解析了其背后的搜索机制。网友最新一手实测显示,AI的秒级回复让全网震惊。

SearchGPT刚刚发布两天,已经有人开始灰度测试。

今天,网友Kesku自制的demo全网刷屏,SearchGPT结果输出如此迅速,让所有人为之惊叹。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图2

当询问Porter Robinson出了新唱片吗?

只见,SearchGPT转瞬间便提供了解答「微笑」,并额外附上了相关链接。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图3

再来看移动版本的回答速度,回答延迟几乎为零。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图4

评论区下方,震惊体铺屏。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图5

但另一方面,OpenAI当天发布的官方演示,被外媒《大西洋月刊》揭露其中存在的问题。

在回答「8月在北卡罗来纳Boone举办的音乐节」的问题时,SearchGPT竟弄错时间,出现了幻觉。

说好的,要取代谷歌呢?

全网一手实测来了

Kesku自己测试的另一个demo,呈现了SearchGPT的小部件。

她发现的一个现象是,SearchGPT倾向于非常关注搜索结果。

「有时就需要明确告诉它,自己想要做什么,而不是想从互联网上获得某些东西」。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图6

比如询问它伦敦天气,SearchGPT先给出了未来七天的天气预报。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图7

在伦敦举办野餐的最佳时间和地点是什么?以下是几个备选项,以类似小部件的形式呈现。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图8

Kesku还在移动端测试了一些例子。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图9

查询英伟达公司股票时,将显示英伟达公司股票的整体可视化图表,并随后提供相关分析。所有股票信息都无缝集成在页面中。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图10

输入一首歌名「永远不会放弃你」,然后直接给出了YouTube歌曲视频,无需跳转到其他网页,在一个页面上即可享受歌曲和视频。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图11

除了搜索功能,网友还乐此不疲地进行「人性化测试」——

「你现在过得怎么样」?

「作为一个人工智能语言模型,我没有情感,但我在这里,并随时准备帮助你解答问题。今天我能为您提供什么帮助?」

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图12

「给我讲一个笑话」

一个英语世界的经典双关梗就此出现——

「科学家对原子的不信任。为何科学家对原子感到不信任?因为它们构成了一切!」

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图13

网友现场出题

眼馋的网友们,纷纷在评论区出题,让帖主帮忙测试。

第一位网友问道,「它是否支持地区和新闻,比如来自TestingCatlog的最新新闻」。

因为原文已经很合理,没有需要修改的部分。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图14

Kesku进行了测试后指出,“它可以根据IP地址或准确位置为您提供本地信息(默认情况下后者关闭,可在设置中选择开启)——例如,‘我附近的电影院’这样的查询效果非常出色”。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图15

「帮忙试一下其智能体搜索的解释能力」。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图16

SearchGPT在给出关于高带宽存储器的解释中,蓝色标出的内容,是参考解释。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图17

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图18

你能尝试搜索一些付费墙后面的文章吗?那些最近与OpenAI签署了合作伙伴关系的文章。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图19

Kesku给出了一篇文章的内容,不过貌似还是不能越过付费内容,仅是给出了文章的总结。

更详细的信息,仍然无法查看。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图20

你能够尝试查询「Yandex的月活跃用户数量」吗?

我想查看,当它找不到我所需的确切答案时,是否会承认它找到了日活跃用户数(DAU),而不是月活跃用户数(MAU),或者会像copilot那样装作糊涂,简单地复制粘贴整个搜索结果而忽视实际查询。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图21

Kesku搜素后的结果如下所示:

显然,根据提问者的问题,SearchGPT提供了答案。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图22

「与Perplexity相比如何」?

Kesku称目前尚未测试复杂任务,但非常喜欢当前测得的结果。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图23

在下面提示中,她直接问道「谁是Kesku」这么小众的问题。

没想到,SearchGPT给出了正确的解答,Perplexity却回答错误了。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图24

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图25

有网友对此评价道,「非常酷的演示!也许SearchGPT能在本地搜索领域带来一些变革?它能帮助你在现实世界中完成任务。从外观来看,它有很好的数据来源、简洁的小工具,而且速度超快。不知道与谷歌相比,他们能把每次查询的成本降低到多少」?

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图26

揭秘SearchGPT搜索机制

科技媒体TestingCatolog也率先进行了内部测试,并揭示了SearchGPT搜索机制的一部分。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图27

与当前ChatGPT提供的通用Bing搜索功能不同,SearchGPT更擅长即时提供信息。

虽然仍依赖Bing的索引,但SearchGPT将会引入自己的网络爬虫(类似Perplexity),用于动态获取实时数据,以解决Bing速度较慢的问题。

甚至,TestingCatalog还发掘了SearchGPT的源代码,并在评论区坚定地表示「非常准确,我有内部消息。」

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图28

源代码不仅揭示了Bing的接口,还可以看出,搜索结果由多模态模型提供支持。

虽然看不出其中具体的处理流程,但调用的模型应该具有自动理解图像的功能。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图29

官方演示大翻车,OpenAI惨遭打脸

就在网友们兴致勃勃地试用时,《大西洋月刊》却站出来泼了一盆冷水——SearchGPT在官方demo中有明显的搜索结果错误。

用户提出的搜索问题是「8月在北卡罗来纳Boone举办的音乐节」。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图30

这个问题实际上难以展示SearchGPT相对传统搜索引擎的优越性。同样的问题如果提交给谷歌搜索,其结果几乎相同。

比如SearchGPT将”阿巴拉契亚夏季节”(An Appalachian Summer Festival)放在首行,同样出现在谷歌搜索的第二位结果。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图31

但尴尬的是,标题下方的AI摘要把一个关键信息弄错了——经主办方确认,音乐节举办日期为6月29日至7月27日。

如果你按照SearchGPT给出的信息去买票,将一无所获——7月29日~8月16日恰好是售票处正式关闭的时段。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图32

OpenAI发言人Kayla Wood已经向《大西洋月刊》承认了这个错误,并表示「这仅是初始的原型,我们将不断改进。」

这个错误让人不禁想起Bard曾经造成的惨剧。

2023年2月,谷歌发布了这款聊天机器人产品,旨在与ChatGPT竞争。然而,这款产品首次亮相即出现事实错误,导致Alphabet股价当天暴跌9%,市值瞬间蒸发1000亿美元。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图33

Bard宣称James Webb太空望远镜拍摄了系外行星的首张图像,但实际上这一成就应归功于欧洲南方天文台的VLT。

但好在,OpenAI没有股价可跌,而且仅开放内测的做法也是相当谨慎。毕竟有谷歌的前车之鉴,可以预料到,LLM这种错误几乎是无法避免的。

即使OpenAI能够找到方法大幅减少SearchGPT的幻觉,但面对庞大的访问量也是「杯水车薪」。

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图34

假设幻觉率仅为1%(这个比率极其罕见),按照谷歌的规模,也会导致每天产生数千万个错误答案。

更何况,我们目前还没有发现足够可靠且有效的方法,来消除LLM的废话和幻觉。

而且,Andrej Karpathy大佬曾经在推特上表达过这样的观点:「幻觉并不是bug,而是LLM最大的特点。」

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图35

Andrej Karpathy将语言模型(LLM)比喻为「梦想机器」:我们通过使用提示语来引导模型「做梦」,再结合它对训练文档的模糊记忆,就可以生成出结果。

虽然大多数时候生成结果是有用的,但既然是「梦境」就有可能失控。当LLM做梦进入有事实错误的领域时,我们就会给它贴上「幻觉」的标签。

这看起来是个bug,但长期语言模型只是在执行它一直在做的任务。

这种机制和传统的搜索引擎完全不同。后者接收提示后仅仅是逐字返回数据库中最相似的文档,因此你可以说它有「创造性问题」,因为搜索引擎永远不可能创造新的回应。

根据Karpathy的说法,我们就很难指望由当前大规模语言模型(LLM)驱动的人工智能搜索能够产生百分之百真实准确的结果。

那么这场搜索引擎的变革会如何发展?LLM的「梦境创意」和传统搜索引擎的真实可靠,究竟是共存下去,还是会「你死我亡」?

OpenAI遭遇尴尬,SearchGPT演示失利,源码泄露搜索机制。_图36

0
分享到:
没有账号? 忘记密码?