谷歌揭秘大模型不会数r原因:嵌入维度是关键,不止分词器问题(模型 数据集)

AIGC动态欢迎阅读

原标题:谷歌揭秘大模型不会数r原因:嵌入维度

是关键,不止分词器问题

关键字:词汇量,模型,序列,维度,长度

文章来源:量子位

内容字数:0字

内容摘要:

克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。

谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的tokenizer所致,而是没有足够的空间来存储用于计数的向量。

数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4

o、Claude 3.5也无法幸免。

如果再进一步,想要找到出现频率最高的一个词,更是难如登天,即便能蒙对给出的具体数量也是错的。

有人认为是词汇的token化导致了大模型看到的“词”和我们的看法不一致,但论文表明,实际情况并不是这么简单。

想数清单词,嵌入维度要够大Transformer的计数能力与其嵌入维度d和词汇量m(指词汇表中词的数量,非序列长度)的关系密切相关。

详细的原因,就涉及到了Transformer统计词频时的机制。

Transformer通过一种特殊的嵌入方式,利用嵌入空间的线性结构,巧妙地将计数问题转化为了向量加法。

具体说是将每个词映射到一个独特的正交向量上,在这种表示下,词频可以通过对这些正交向量求和来简单地计算。

然而,这种机制的局限性在于,它要求词汇表

原文链接:谷歌揭秘大模型不会数r原因:嵌入维度是关键,不止分词器问题

联系作者

文章来源:量子位

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?