AIGC动态欢迎阅读
是关键,不止分词器问题
关键字:词汇量,模型,序列,维度,长度文章来源:量子位
内容字数:0字内容摘要:
克雷西 发自 凹非寺量子位 | 公众号 QbitAI大模型做奥赛题游刃有余,简单的数数却屡屡翻车的原因找到了。
谷歌的一项新研究,发现大模型不会数数的原因,并不是简单的tokenizer所致,而是没有足够的空间来存储用于计数的向量。
数出一段话中某个单词出现的次数,这样简单的任务可以难倒许多大模型,GPT-4o、Claude 3.5也无法幸免。
如果再进一步,想要找到出现频率最高的一个词,更是难如登天,即便能蒙对给出的具体数量也是错的。
有人认为是词汇的token化导致了大模型看到的“词”和我们的看法不一致,但论文表明,实际情况并不是这么简单。
想数清单词,嵌入维度要够大Transformer的计数能力与其嵌入维度d和词汇量m(指词汇表中词的数量,非序列长度)的关系密切相关。
详细的原因,就涉及到了Transformer统计词频时的机制。
Transformer通过一种特殊的嵌入方式,利用嵌入空间的线性结构,巧妙地将计数问题转化为了向量加法。
具体说是将每个词映射到一个独特的正交向量上,在这种表示下,词频可以通过对这些正交向量求和来简单地计算。
然而,这种机制的局限性在于,它要求词汇表原文链接:谷歌揭秘大模型不会数r原因:嵌入维度是关键,不止分词器问题
联系作者
文章来源:量子位
作者微信:
作者简介: