目前市场上主流的研究路线主要分为两种:1)原生多模态路线,模型设计从一开始就针对多模态数据进行适配,代表性的工作有微软的KOSMOS系列和Florence系列、谷歌的PALM-E系列,以及阿里的OFA系列等;2)将单模态特征作为语言模型的附加输入来扩展语言模型,从而将其用于视觉语言等多种任务中,代表性的工作有Deepmind的Flamingo、Saleforce的BLIP-2、LLAVA,以及阿里的Qwen-vl等。
以上两种技术路线各有优劣,原生多模态路线的模型结构主体均为Transformer的基础堆叠,包括编码器和解码器两个模块;而视觉模块作为语言模块额外输入补充的方式多为仅解码器的模型架构、TransformerLLMs模型作为中心,其他模态的模型作为外围辅助特征提取模块,用小参数量的模型就可以实现各个单模态领域已有成果的复用,同时还能保留LLMs的有效果,通过插入多个对齐层来实现视觉信息与文本信息的对齐和联合学习,这种方式在扩展模态信息上也更灵活。用同样的方法可以支持语音、图像、视频等其他模态数据的统一训练。
01 概述
考拉在视觉以及多模态领域有超过20年的技术积累,拥有20余项世界级的技术突破,随着大模型时代的到来,公司投入了大量时间进行多模态大模型的研发工作,经历了多个版本迭代,于11月15日正式发布了悠然多模态产业通用大模型应用与服务平台。
悠然大模型(以下简称UranMM-13B)采用先进的多模态大模型架构,将视觉等模态知识作为模态数据补充到LLMs,简单高效地扩展了LLM的图像识别、视频理解等跨模态能力,作为一种多模态视觉语言大模型,悠然大模型具有强大的图文理解、视频理解、多模态推理等能力,并且保留了常见的自然语言任务处理能力,包括问答、信息检索、创意写作和辅助编码等能力。该模型在与BLIP2、LLaVa、QwenVL-Chat等国内外模型评测的对比中,表现出优秀的成绩。同时,悠然大模型定位为产业通用大模型,基于产业模型可以快速生成行业模型,结合行业应用发挥出更大的价值。
02 模型概述
模型架构
该模型由多模态编码器、对齐模块和大语言模型三个组件构成,利用高质量的场景化数据进行预训练和调优,通过控制可训练参数来实现。
● 多模态编码器:以视觉编码器(Image Encoder)为例,UranMM-13B采用了预训练的CLIP ViT-L/14模型,用于提取输入图像的特征。图像被调整为336×336的统一尺寸,并被分割成14个步长的patch,最终转化为序列长度为576的tokens作为LLMs的输入。
● 对齐模块:采用了一个多层神经网络MLP,用于与LLMs模型理解的知识结构匹配。
● 强大的语言模型:UranMM-13B 是基于LLaMa2开发的,具有13B个参数。它经过了中文分词的优化,并增加了200B个具有行业属性的中英文数据进行预训练。在中文、英文、数学、代码等各种下游任务中,相对于Llama2-13B,UranMM-13B取得了明显的提升。
训练样本
目前存在的多模态公开指令集存在质量不高和数量有限的问题,由于使用公开数据进行训练,生成的模型存在严重的幻觉问题,无法满足实际应用的需求。为了解决这个问题,考拉悠然研发团队采用了一系列高质量数据生成策略:
1. 根据主流的视觉和语言大模型设计规则,对公开数据进行清洗和过滤,得到一部分高质量的种子数据,根据实际经验判断数据的有效率约为30%。
2. 利用先进的视觉技术,如GLIP、SAM和KOSMOS,结合粗粒度和细粒度信息的提取,将图像描述转化为语言形式,并通过模型构建一批高质量的指令数据。
最终用于模型训练的数据规模达到了数十亿个token的全模态数据,以及数百万条行业高质量指令集。
训练技巧
在训练方法方面,考拉取得了许多创新成果,团队利用DeepSpeed的训练框架进行优化,采用BF16精度,并整合了FlashAttention2等技术来提高训练效率。
与市场上许多VLM模型的生成过程相似,悠然大模型的训练过程分为两个阶段:第一阶段使用图像-文本数据训练视觉和语言模型对齐层,以使视觉模型提取的图像特征能够与LLM中的文本特征空间对齐;第二阶段使用行业自有指令数据和开源指令数据,进一步微调模型的视觉感知和业务理解能力。为了保持模型的语言能力稳定性,还使用了ShareGPT的1M文本数据。
UranMM-13B还特别针对实际业务场景的需求,增强了预测能力。我们采用了分组查询注意力(GQA)来加速推理过程,滑动窗口注意力(SWA)则能以更低的成本处理更长的序列。这些技术使得模型能更好地处理时间序列预测问题,从而实现更精准的预测。此外,我们的模型还具备自我学习和调整的能力,能够根据新的数据和反馈不断优化预测结果。
03 评估结果
UranMM-13B在视觉标注、问答、关联提取等任务中,与近期的最先进模型相比取得了出色的效果。
UranMM-13B与最新的最先进模型(SOTA)进行了对比,下面是对比图:
04 通用能力展示
图像识别
光学字符识别(OCR)
下面的示例展示了模型在处理实际街道照片中的中文OCR识别任务时的能力。
文字创作
以下示例展示了模型在灾害场景下生成文本描述的能力。
05 实际业务案例展示
基于全面的多模态产业通用大模型,通过对行业数据进行微调,构建了适用于各类行业的大模型。同时,结合模型推理训练引擎、向量数据库、多模态数据实时加工服务和Agent智能体等大模型应用工具链,可以快速构建各类行业的AI应用。这种最新的应用范式相比以往的产品解决方案,在业务效果和交付效率方面都有显著的提升,有望推动全新的行业AI原生应用的发展,实现产业真正的智能化升级。在高空交通监管、电网巡检、半导体质量检测、烟草生产管控、智慧城市治理等交通、能源、工业、政务领域的场景中,具有广阔的应用空间和大量的商机。
以下以高空交通监管场景的行业应用功能点为例,展示模型在真实业务场景中的应用效果。
高空视频大模型 + 高空视频全要素感知预警平台
以川藏公路折多山当地的交通感知预警应用为例。一方面,当地部署的多个高空摄像头,全天候实时传输道路视频流。视频流经过高空视频大模型驱动的数据处理服务加工后,生成动态的结构化事件数据集;另一方面,业务方事先准备了《中华人民共和国道路交通安全法》《中华人民共和国道路交通安全法实施条例》以及四川交通厅相关道路安全行政法规等行业规范,建立了完善的行业知识库。
在紧急情况下,行业智能体会综合视频事件和行业法规条例的信息,智能地评估告警的严重程度,并生成事件分析报告,以帮助监管人员及时处理危险情况。在日常运营期间,监管人员还可以通过预警平台实时生成指定时段的交通动态图表和分析报告,为监管工作提供敏捷可靠的数据支持。
以上案例充分展示了悠然多模态产业通用大模型在视觉识别、信息理解、逻辑推断、知识应用等任务上的出色表现。