智谱AI的CogVLM2-Video开源模型能回答时间问题。(智谱科技干嘛的)

品玩七月十二日讯,智谱 AI 宣布,旗下视频理解模型CogVLM2-Video现已开源。

智谱 AI 提出了一种创新的基于视觉模型的自动时间定位数据构建方法,该方法利用先进的计算机视觉技术,自动化地生成了 3 万条与时间相关的视频问答数据。这些数据涵盖了多种时间场景和问答类型,为视频内容分析和时间信息处理提供了丰富的资源。基于这个新创建的数据集以及现有的开放领域问答数据集,引入了多帧视频图像和时间戳作为编码器输入,通过深度学习技术训练出了一款名为 CogVLM2-Video 的高性能视频问答模型。该模型具备了更加精准的视频内容理解和时间信息推断能力,推动了视频问答技术的发展。

智谱 AI 表示,CogVLM2-Video 不仅在公共视频理解基准上达到了最新的性能,还在视频字幕生成和时间定位方面表现出色。

智谱AI的CogVLM2-Video开源模型能回答时间问题。_图1

0
分享到:
没有账号? 忘记密码?