斯坦福|卷积增强大型语言模型(卷积vae)

Conformer LLMs — Convolution Augmented Large Language Models

P Verma

[Stanford University]

Conformer LLMs —— 卷积增强大型语言模型

动机:随着大型语言模型(LLM)在各种领域的应用,如对话系统、语音识别和图像处理等,如何进一步提升其性能成为了一个重要的研究问题。本文目标是将卷积层和Transformer结合起来,用于训练大型语言模型。

方法:提出一种名为Conformer的结构,它在每个Transformer解码器层之后添加了因果卷积滤波器。这种结构允许模型在学习过程中同时具有局部和全局的连接,同时可以根据任务的需要过滤或理解依赖关系。

优势:能有效地提升大型语言模型的性能。通过设计手工过滤器,可以在非因果设置中获得显著的性能提升。此外,该结构还能够很好地与解码器模块集成,并且随着嵌入大小、头数和卷积块的缩放而缩放。

提出一种名为Conformer的结构,将卷积层和Transformer结合起来,用于训练大型语言模型,从而有效地提升了模型的性能。

https://arxiv.org/abs/2307.00461

斯坦福|卷积增强大型语言模型

0
分享到:
没有账号? 忘记密码?