目前有哪些模型有多模态功能（多模态设计什么意思）

目前具有多模态功能的模型主要有以下几种：

GPT-4：能够处理和生成图像、音频等多种模态，但这方面能力还处于基础阶段。 Character.AI：具备多模态处理和生成能力。 Meta 的 ImageBind：可以处理和生成多种模态。智谱·AI 推出的多模态模型： Visualglm-6B：开源的支持图像、中文和英文的多模态对话语言模型，语言模型基于 ChatGLM-6B，具有 62 亿参数；图像部分通过训练 BLIP2-Qformer 构建起视觉模型与语言模型的桥梁，整体模型共 78 亿参数。 RDM：Relay Diffusion Model，级联扩散模型，可以从任意给定分辨率的图像快速生成，而无需从白噪声生成。 CogAgent-18B：基于 CogVLM-17B 改进的开源视觉语言模型，拥有 110 亿视觉参数和 70 亿语言参数，支持 1120*1120 分辨率的图像理解，在 CogVLM 功能的基础上，具备 GUI 图像的 Agent 能力。 CogVLM-17B：强大的开源视觉语言模型（VLM），基于对视觉和语言信息之间融合的理解，能实现视觉语言特征的深度融合，是目前多模态权威学术榜单上综合成绩第一的模型，在 14 个数据集上取得了 state-of-the-art 或者第二名的成绩。

猜你喜欢