Karpathy:用表情包解释一下,为什么AI数不清Strawberry几个 r?(表情包盛行的原因及问题分析)

AIGC动态欢迎阅读

原标题:Karpathy:用表情包解释一下,为什么AI数不清Strawberry几个 r?

关键字:模型,问题,数据,知识,能力

文章来源:Founder Park

内容字数:0字

内容摘要:

还记得这些天大模型被揪出来的低级错误吗?

不知道 13.11 和 13.8哪个大,数不清 Strawberry 单词里面有多少个 r…… 每每被发现一个弱点,大模型都只能接受人们的无情嘲笑。

嘲笑之后,大家也冷静了下来,开始思考:低级错误背后的本质是什么?大家普遍认为,是 Token 化(Tokenization)的锅。

AI大神Karpathy按照程序被设计的表示方法,用表情包展现了大模型眼中的文字世界,「How many letters ‘r’ in the word’strawberry’?」在 LLM 看来是:01Karpathy:用表情包模拟LLM的文字世界在国内,Tokenization 经常被翻译成「分词」。这个翻译有一定的误导性,因为 Tokenization 里的 token 指的未必是词,也可以是标点符号、数字或者某个单词的一部分。比如,在OpenAI

提供的一个工具中,我们可以看到,Strawberry 这个单词就被分为了 Str-aw-berry 三个 token。在这种情况下,你让 AI 大模型数单词里有几个 r,属实是为难它。

除了草莓 (Strawber

原文链接:Karpathy:用表情包解释一下,为什么AI数不清Strawberry几个 r?

联系作者

文章来源:Founder Park

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?