【医学图像描述】MedICaT: 医学图像,描述和文字参考的数据集(EMNLP-Findings 2020)
【论文标题】MedICaT: A Dataset of Medical Images, Captions, and Textual References
【医学图像描述】MedICaT: 医学图像,描述和文字参考的数据集(EMNLP-Findings 2020)
【作者团队】Sanjay Subramanian, Lucy Lu Wang, Sachin Mehta, Ben Bogin, Madeleine van Zuylen, Sravanthi Parasa, Sameer Singh, Matt Gardner, Hannaneh Hajishirzi
【发表时间】2020/10/12
【论文链接】https://arxiv.org/abs/2010.06000
【代码链接】https://github.com/allenai/medicat
【推荐理由】
本文收录于EMNLP 2020会议,来自艾伦人工智能研究所的研究人员提出一个包括从131000篇开源医学论文中爬取的217000张医疗图片及其相关对应文本描述的数据集MedICaT,旨在解决医疗科学文献中图片检索和图像-文本对齐中的问题。
理解图片与文本之间的关系是理解科学文献的关键,特别是在医学相关研究中,由于医学数据相当复杂,所以通常一个医学数据包含多个子图,然后用详细的文字描述了它们的内容。
在以往对科学论文研究中的重点是如何对文中图片内容进行分类,并没有研究论文中图片与文本的对应关系,因此并不能很好地对相关科学文献进行理解。
为了解决图片检索和图片-文本对齐的问题,作者引入了基于上下文的医疗图像数据集:MedICaT。该数据集包含来自131000篇生物医学相关论文中的217000张图像,并包括相关描述信息,内联引用,和子图信息(如图)。
最后,通过使用MedICaT数据集,作者在论文中介绍了在复合图片中将子图转换成对应的子描述任务,并且证实了内联引用在图像-文本匹配中的实用性,对用机器理解医学科学文献的发展有重要意义。