一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实(一次输入多个单元格的值)

AIGC动态欢迎阅读

原标题:一次可输入多张图像

,还能多轮对话!最新开源数据集,让AI聊天更接近现实

关键字:报告,图像,模型,基准,长上

文章来源:量子位

内容字数:0字

内容摘要:

刘子煜 投稿量子位 | 公众号 QbitAI大模型对话能更接近现实了!

不仅可以最多输入20张图像,还能支持多达27轮对话。可处理文本+图像tokens最多18k。

这就是最新开源的超长多图多轮对话理解数据集MMDU(Multi-Turn Multi-Image Dialog Understanding)。

大型视觉语言模型(LVLMs)的核心能力之一是生成自然且有意义的回答,从而能够与人类进行流畅的图文对话。

尽管目前开源的LVLMs在如单轮单图输入等简化场景中展示出了不错的潜力,但在具有长上下文长度,且需要多轮对话和多图输入的真实对话场景中,表现则相对不足。

此外,现有的LVLM Benchmarks主要采用单项选择题或简短回答的形式,难以全面评估LVLMs在真实世界人机互动应用中的表现。

为此,研究团队在论文A Multi-Turn Multi-Image Dialog Understanding Benchmark and Instruction-Tuning Dataset for LVLMs中提出了全新多图多轮评测基准MMDU及大规模指令微调数据集MMDU-45k,旨在评估

原文链接:一次可输入多张图像,还能多轮对话!最新开源数据集,让AI聊天更接近现实

联系作者

文章来源:量子位

作者微信:QbitAI

作者简介:追踪人工智能新趋势,关注科技行业新突破

0
分享到:
没有账号? 忘记密码?