从BLIP-2到Qwen2-VL,多模态大模型的技术点总结(多模态分析 AI)

AIGC动态欢迎阅读

原标题:从BLIP-2到Qwen2-VL,多模态大模型

的技术点总结

关键字:模型,视觉,数据,指令,侵权

文章来源:智猩猩GenAI

内容字数:0字

内容摘要:

开讲预约导读原文来自知乎,作者为jewellery,标题为《多模态大模型技术点总结》。作者对BLIP-2、InstructBLIP、LLaVA、LLaVA-1.5、MiniGPT-4

、MiniGPT-v2、Qwen-VL、Qwen2-VL,这8款模型的模型结构、训练过程、预训练阶段及改进点等技术点进行了详细总结。原文地址:https://zhuanlan.zhihu.com/p/717586003

本文只做学术/技术分享,如有侵权,联系删文。总结01BLIP2论文地址:https://arxiv.org/pdf/2301.12597

发布时间:2023.06.15

模型结构:

Vision Encoder:ViT-L/14

VL Adapter:Q-Former

LLM:OPT (decoder-based),FlanT5(encoder-decoder-based)Overview of BLIP-2s framework

论文主要提出Q-Former(Lightweight Querying Transformer)用于连接模态之间的gap。BLIP-2整体架构包括三个模块:视觉编

原文链接:从BLIP-2到Qwen2-VL,多模态大模型的技术点总结

联系作者

文章来源:智猩猩GenAI

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?