AIGC动态欢迎阅读
原标题:21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据
集Medical-CXR-VQA
关键字:报告,方法,问题,作者,数据
文章来源:新智元
内容字数:0字内容摘要:
新智元报道编辑:LRST 好困
【新智元导读】多模态大语言模型(MLLM)在医学视觉问答(VQA)领域展现出巨大潜力,通过提供针对医学图像的具体临床问题的回答,有助于提高医疗专业人员的工作效率。然而,现有医学VQA数据集规模较小且问题过于简单,限制了模型训练和微调。为了解决这一问题,研究团队提出了Medical-CXR-VQA,这是一个大规模的X光胸片问答数据库,覆盖了更广泛的问题类型,包括异常、存在、位置等七种问题类型,为构建更准确的医学VQA模型提供了基础。多模态大语言模型 (Multimodal Large Language Moodel, MLLM) 以其强大的语言理解能力和生成能力,在各个领域取得了巨大成功。
在医学领域上,视觉问答 (VQA) 是医学多模态大语言模型的一项重要任务,它可以通过回答针对医学图像的具体临床问题,有效提高医疗专业人员的效率。这一类工作可以减轻公共卫生系统的负担,对于医疗资源贫乏的国家来说尤其重要。
然而,现有的医学 VQA 数据集规模较小,仅包含相当于分类任务的简单问题,缺乏语义推理和临床知识。
如图1所示,现有的ImageCLF VQA-MED原文链接:21.5万张X光,78万个问题!德州大学NIH等联合发布医学视觉问答数据集Medical-CXR-VQA
联系作者
文章来源:新智元
作者微信:
作者简介: