不同大模型之间会相互串联吗?(论文每个模型控制变量不一样)

目前不同大模型之间一般不会直接相互串联。

大模型的发展仍在不断演进中。在语言模型方面,Token 被视为模型处理和生成的文本单位,输入文本会被分词数字化形成词汇表,为便于计算机处理,还会将 Token 表示成稠密矩阵向量,即 embedding,常见算法包括基于统计、深度网络和神经网络的多种方式。以 Transformer 为代表的大模型采用自注意力机制来学习不同 token 之间的依赖关系,生成高质量 embedding。

多模态大模型方面,虽然取得了重大进展,但面临着巨大的计算量问题。研究重点在于各模态的连接,合理利用现成的训练好的单模态基础模型,减少训练费用并提升效率。不同模态的模型通常是分开训练的,如何将它们连接起来实现协同推理是核心挑战,主要通过多模态预训练和多模态的指令微调来实现模态之间以及模型输出与人类意图的对齐。

在企业应用中,大模型还未发展到通用人工智能阶段,不能期望一个大模型解决所有问题。在企业内部,更可能是多个专注于不同专业的大模型通过协作和组合来工作。

0
分享到:
没有账号? 忘记密码?