21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA(德州大学医学中心官网)

AIGC动态欢迎阅读

原标题:21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据

集Medical-CXR-VQA

关键字:报告,方法,问题,作者

,数据

文章来源:新智元

内容字数:0字

内容摘要:

新智元报道编辑:LRST 好困

【新智元导读】多模态大语言模型(MLLM)在医学视觉问答(VQA)领域展现出巨大潜力,通过提供针对医学图像的具体临床问题的回答,有助于提高医疗专业人员的工作效率。然而,现有医学VQA数据集规模较小且问题过于简单,限制了模型训练和微调。为了解决这一问题,研究团队提出了Medical-CXR-VQA,这是一个大规模的X光胸片问答数据库,覆盖了更广泛的问题类型,包括异常、存在、位置等七种问题类型,为构建更准确的医学VQA模型提供了基础。多模态大语言模型 (Multimodal Large Language Moodel, MLLM) 以其强大的语言理解能力和生成能力,在各个领域取得了巨大成功。

在医学领域上,视觉问答 (VQA) 是医学多模态大语言模型的一项重要任务,它可以通过回答针对医学图像的具体临床问题,有效提高医疗专业人员的效率。这一类工作可以减轻公共卫生系统的负担,对于医疗资源贫乏的国家来说尤其重要。

然而,现有的医学 VQA 数据集规模较小,仅包含相当于分类任务的简单问题,缺乏语义推理和临床知识。

如图1所示,现有的ImageCLF VQA-MED

原文链接:21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA

联系作者

文章来源:新智元

作者微信:

作者简介:

0
分享到:
没有账号? 忘记密码?