InternVL是一个大型的视觉-语言基础模型(vision-language foundation model),它将视觉编码器的参数扩展到60亿(6 billion parameters),并使用来自互联网的大规模图像-文本数据,逐步与大型语言模型(LLMs)对齐。这个模型能够广泛应用于各种视觉语言任务,并在32个通用视觉语言基准测试中取得了最先进的性能,包括但不限于:
视觉感知任务(Visual Perception Tasks):如图像级别或像素级别的识别。视觉语言任务(Vision-Language Tasks):如零样本图像/视频分类(Zero-Shot Image/Video Classification)、零样本图像/视频-文本检索(Zero-Shot Image/Video-Text Retrieval)。多模态对话系统(Multi-modal Dialogue Systems):与LLMs链接,创建能够进行复杂视觉-语言对话和交互的系统。InternVL的设计包括几个关键点:
参数平衡的视觉和语言组件:包含一个扩展到60亿参数的视觉编码器和一个具有80亿参数的大型语言模型中间件,后者作为重要的“粘合”层,根据用户命令重新组织视觉特征。一致的表示:为了保持视觉编码器和LLM之间的表示一致性,采用预训练的多语言LLaMA模型来初始化中间件,并与视觉编码器对齐。 渐进式图像-文本对齐:利用来自不同来源的图像-文本数据,通过渐进对齐策略确保训练稳定性,该策略首先在大规模噪声图像-文本数据上启动对比学习,然后过渡到细粒度数据上的生成学习。InternVL的开源信息可以在以下链接中找到:
论文链接:arXiv:2312.14238 开源代码:GitHub – OpenGVLab/InternVL此外,InternVL还提供了Demo试用,可以在这里访问:InternVL Demo。