今日arXiv最热大模型论文:浙江大学:如何减轻视觉大模型中的幻觉问题(浙江大学写作中心)

AIGC动态欢迎阅读

原标题:今日arXiv最热大模型论文:浙江大学:如何减轻视觉大模型中的幻觉

问题

关键字:幻觉,模型,数据,报告,反馈

文章来源:夕小瑶科技说

内容字数:7423字

内容摘要:

夕小瑶科技说 原创作者 | 谢年年大模型虽然能力强,但一直饱受“幻觉”问题的困扰,在视觉大模型(LVLMs)中更是如此,生成的文本包含与视觉输入不正确的对象、属性和关系。

比如图中尝试询问模型“小男孩和奶牛正在做什么?”

视觉大模型LLaVA-1.5-13b无法识别男孩正在喂牛。而LLaVA-1.6-34b未能识别衬衫的颜色,并错误判断了男孩和牛之间的空间关系。

对于“详细描述图片内容”的任务,LLaVA-1.5-13b描述图片时错误地提到滑板手旁边还有一个人,且图像右侧边缘附近还有一个滑板。LLaVA-1.6-34b将灰色的岩石识别为临时的坡道,并将滑板描述为黄色和黑色。

今天介绍的这篇文章,是从一个细粒度的角度来识别与缓解LVLMs中的幻觉问题,流程如下图所示:

首先通过GPT4和GPT4V生成一个小型的句子级幻觉标注数据集,然后训练一个幻觉检测模型,再通过该检测模型和重写模型构建偏好数据集,并设计幻觉严重程度感知的DPO训练方式微调视觉大模型,在多个基准上验证了方法的有效性。

论文标题:Detecting and Mitigating Hallucination in Large

原文链接:今日arXiv最热大模型论文:浙江大学:如何减轻视觉大模型中的幻觉问题

联系作者

文章来源:夕小瑶科技说

作者微信:xixiaoyaoQAQ

作者简介:专业、有趣、深度价值导向的科技媒体。聚集30万AI工程师、研究员,覆盖500多家海内外机构投资人,互联网大厂中高管和AI公司创始人。一线作者来自清北、国内外顶级AI实验室和大厂,兼备敏锐的行业嗅觉和洞察深度。商务合作:zym5189

0
分享到:
没有账号? 忘记密码?