从BLIP-2到Qwen2-VL，多模态大模型的技术点总结（多模态分析 AI）

原标题：从BLIP-2到Qwen2-VL，多模态大模型

的技术点总结

关键字：模型,视觉,数据,指令,侵权

文章来源：智猩猩GenAI

内容字数：0字

开讲预约导读原文来自知乎，作者为jewellery，标题为《多模态大模型技术点总结》。作者对BLIP-2、InstructBLIP、LLaVA、LLaVA-1.5、MiniGPT-4

、MiniGPT-v2、Qwen-VL、Qwen2-VL，这8款模型的模型结构、训练过程、预训练阶段及改进点等技术点进行了详细总结。原文地址：https://zhuanlan.zhihu.com/p/717586003

本文只做学术/技术分享，如有侵权，联系删文。总结01BLIP2论文地址：https://arxiv.org/pdf/2301.12597

发布时间：2023.06.15

模型结构：

Vision Encoder：ViT-L/14

VL Adapter：Q-Former

LLM：OPT (decoder-based)，FlanT5（encoder-decoder-based）Overview of BLIP-2s framework

论文主要提出Q-Former（Lightweight Querying Transformer）用于连接模态之间的gap。BLIP-2整体架构包括三个模块：视觉编

原文链接：从BLIP-2到Qwen2-VL，多模态大模型的技术点总结

文章来源：智猩猩GenAI

作者微信：

作者简介：