度小满与哈工大合作研发了一种自适应剪枝算法,旨在提高多模态大模型的计算效率。(度小满前端)

在研究和应用视觉语言大模型(VLM)时,高计算成本一直是限制其广泛应用的主要问题。最近,哈尔滨工业大学与度小满合作开发了一种创新的自适应剪枝算法——SmartTrim。该算法能够有效减少多模态大模型中的冗余计算,从而显著提高效率。相关研究成果已被国际自然语言处理领域顶级会议COLING 24接受。

SmartTrim框架的实施涉及两个关键组件:跨模态感知的Token修剪器和模态自适应的注意力头修剪器。Token修剪器利用多层感知器(MLP)结构,智能地识别并去除那些对于当前层不重要的单词。这一过程不仅考虑了单词在文本或图像序列中的独立重要性,还综合了它们在跨模态交互中的贡献。注意力头修剪器则直接集成在模型的自注意力模块中,评估并修剪那些冗余的注意力头,从而优化了模型的计算效率。

在训练SmartTrim模型时,研究人员采用了一种结合任务相关目标和计算开销目标的双重优化策略。通过重新参数化技巧,解决了不可导二值掩码的问题,实现了模型的端到端训练。此外,引入了自蒸馏和课程学习策略,进一步提高了剪枝后模型的性能,确保了训练过程的稳定性。

实验结果显示,SmartTrim在METER和BLIP两个VLM上实现了2-3倍的加速,并且最小化了性能损失。这一成果不仅在理论上具有创新性,还为实际应用中的模型优化提供了新的思路。特别是在1.5倍加速比下,SmartTrim的性能甚至超过了原始模型。在高加速比下,SmartTrim相对于其他方法展现出明显的优势。

SmartTrim技术的推出,标志着多模态大模型研究的一个重要里程碑。度小满表示,SmartTrim技术将在未来整合到公司的轩辕大模型中,以推动大模型技术的发展。相关研究者可以通过访问https://github.com/Duxiaoman-DI/XuanYuan,了解更多关于SmartTrim的详细信息和研究成果。

0
分享到:
没有账号? 忘记密码?