
01 作者信息
Junnan Li,Dongxu Li,Silvio Savarese,Steven Hoi02 论文简介
关键词 KeyWords Vision-language Pre-training Efficient Pre-training Instruction Following 摘要概览 Abstract 利用现成的大语言模型和图像模型来高效率地训练一个多模态模型03 研究设计
研究思路将视觉特征表示和文本特征表示进行对齐
研究方法第一阶段
固定视觉预训练模型,通过三个任务来训练一个 Q-Former 将图像输入中的语义编码到一个和文本特征空间相似的特征空间中。具体来讲,模型基于 K 个可学习的 query 嵌入和 cross-attention 机制从图像中获取特征,三个任务包括:
1. 图文匹配:对输入的(图像,文本)二元组分类,判断其是否相关
2. 基于图像的文本生成:给定图像输入,生成对应的文本描述
3. 图文对比学习:拉近图像特征和对应文本特征的距离,增大其和无关文本特征的距离第二阶段
将 Q-Former 的输出通过一个全联接网络输入给固定的大语言模型,通过【基于图像的文本生成】任务将与文本特征进行了初步对齐的视觉特征进一步编码为大语言模型可以理解的输入。
04 实验结果
零样本性能BLIP-2 仅仅通过训练轻量的 Q-Former 和一个很小的全连接网络,便可以在零样本的 VQA 任务或是零样本的Image Captioning任务上实现SoTA (state-of-the-art)的性能。


在微调的场景下(例如 QA 任务)也能够取得不错的性能,相比一些更大的模型, BLIP-2 能够以更少的可训练参数取得更好的性能。



进行第一阶段的微调/训练之后,模型能够在下游任务上有更好的表现


05 论文贡献
优点
通过固定单模态的预训练模型,BLIP-2 大大减少了预训练所需的计算和数据资源。
通过固定大语言模型的参数,BLIP-2 保留了大语言模型的 Instruction Following 能力。

缺点
模型没有多模态的 In-Context-Learning 能力
保留了大语言模型的一些缺点,比如可能输出不准确的信息 ▾ 传送门 论文链接 ? https://arxiv.org/abs/2301.12597 ▾ 公众号回复 「论文速读」 即可获得高清完整版思维导图
我们为读者准备了一份高清思维导图,包括了论文中的重点亮点以及直观的示意图。点击下方名片关注 OpenBMB ,后台发送“论文速读” ,即可领取论文学习高清思维导图和 FreeMind !
以上是本期论文速读的全部内容,后续 OpenBMB 会围绕大模型介绍更多前沿论文,欢迎大家持续关注!?➤ 加社群/ 提建议/ 有疑问
请找 OpenBMB 万能小助手:



