Medical Images, Captions, and Textual References Dataset医学影像和标题的语篇照应数据集MedICaT
收藏阿里云天池2026-06-05 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/83729
下载链接
链接失效反馈官方服务:
资源简介:
MedICaT is a dataset of medical images, captions, subfigure-subcaption annotations, and inline textual references. Figures and captions are extracted from open access articles in PubMed Central and corresponding reference text is derived from S2ORC.
本数据集主要用于研究医学影像与标题、子图或子标题标注的内联语篇照应问题。图表和标题均由PubMed Central上开源文章摘取,对应的照应语篇则来自S2ORC。
MedICaT是一个涵盖医学图像 (medical images)、图注 (captions)、子图-子图注标注 (subfigure-subcaption annotations) 以及内嵌文本引用 (inline textual references) 的数据集,主要用于探究医学影像与图注、子图或子图注标注之间的内嵌语篇照应关系。该数据集的图像与图注均提取自PubMed Central的开源学术文章,对应的引用文本则源自S2ORC。
提供机构:
阿里云天池
创建时间:
2020-11-21
搜集汇总
数据集介绍

背景与挑战
背景概述
MedICaT是一个医学影像、标题和文本引用数据集,旨在研究医学图像与标题、子图标注之间的语篇照应关系。数据来源于PubMed Central的开源文章和S2ORC的照应文本,包含超过21万张图像、数千个子标题标注及内联引用,支持医学图像理解与检索任务。
以上内容由遇见数据集搜集并总结生成



