今日arXiv最热大模型论文：浙江大学：如何减轻视觉大模型中的幻觉问题（浙江大学写作中心）

原标题：今日arXiv最热大模型论文：浙江大学：如何减轻视觉大模型中的幻觉

问题

关键字：幻觉,模型,数据,报告,反馈

文章来源：夕小瑶科技说

内容字数：7423字

夕小瑶科技说原创作者 | 谢年年大模型虽然能力强，但一直饱受“幻觉”问题的困扰，在视觉大模型（LVLMs）中更是如此，生成的文本包含与视觉输入不正确的对象、属性和关系。

比如图中尝试询问模型“小男孩和奶牛正在做什么？”

视觉大模型LLaVA-1.5-13b无法识别男孩正在喂牛。而LLaVA-1.6-34b未能识别衬衫的颜色，并错误判断了男孩和牛之间的空间关系。

对于“详细描述图片内容”的任务，LLaVA-1.5-13b描述图片时错误地提到滑板手旁边还有一个人，且图像右侧边缘附近还有一个滑板。LLaVA-1.6-34b将灰色的岩石识别为临时的坡道，并将滑板描述为黄色和黑色。

今天介绍的这篇文章，是从一个细粒度的角度来识别与缓解LVLMs中的幻觉问题，流程如下图所示：

首先通过GPT4和GPT4V生成一个小型的句子级幻觉标注数据集，然后训练一个幻觉检测模型，再通过该检测模型和重写模型构建偏好数据集，并设计幻觉严重程度感知的DPO训练方式微调视觉大模型，在多个基准上验证了方法的有效性。

论文标题:Detecting and Mitigating Hallucination in Large

原文链接：今日arXiv最热大模型论文：浙江大学：如何减轻视觉大模型中的幻觉问题

文章来源：夕小瑶科技说

作者微信：xixiaoyaoQAQ

作者简介：专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员，覆盖500多家海内外机构投资人，互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂，兼备敏锐的行业嗅觉和洞察深度。商务合作：zym5189