关于Tokenizer的一些感想(token 翻译)

AIGC动态欢迎阅读

原标题:关于Tokenizer的一些感想

关键字:粒度,分词,语义,信息,切分

文章来源:算法邦

内容字数:0字

内容摘要:

原文:https://zhuanlan.zhihu.com/p/695307425

在现有Transformer作为大模型框架下,万物tokenizer将会是一个必然的趋势!

01为什么我们需要Token化?tokenizer 实质是对样本进行不同级别的语义分割,使得模型能够更好把握样本的层次结构,捕捉更多粒度的信息。其核心是将”非结构化的数据”转化为”结构化的数据”,结构化数据就可以转化为数学问题。对于Transformer来说,如果一个样本对应的token数量越多,其计算量也就越大,但当token数量越少时,所传入的信息就越少。因此,准确的设计tokenlearner对于 transformer的意义巨大[1],即要使得token的数量能够尽可能的少,又要使得其能够保留尽可能‘好’的样本特征。

token是主干网络处理的相对独立的最小基本单元, 而对于不同的语义级别与应用场景,其所需要的输入数据的信息维度也应该不同,所以应该根据不同的语义级别,设置不同级别的、多梯度的tokenizer,从而能够捕捉到不同粒度的信息,为模型与主干网络提供更丰富的语义信息。例如VQVAE-2 [2]是

原文链接:关于Tokenizer的一些感想

联系作者

文章来源:算法邦

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?