MedICaT
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/MedICaT
下载链接
链接失效反馈官方服务:
资源简介:
MedICaT 是医学图像、标题、子图-子标题注释和内联文本参考的数据集。图片和标题是从 PubMed Central 的开放获取文章中提取的,相应的参考文本来自 S2ORC。数据集包括: 来自 131,410 篇开放获取论文的 217,060 个图形 2069 个复合图形的 7507 个子标题和子图形注释 ROCO 数据集中约 25K 图形的内联参考
MedICaT is a dataset encompassing medical images, captions, subplot-subtitle annotations, and inline text references. Images and their corresponding captions are extracted from open-access articles in PubMed Central, while the corresponding reference texts are sourced from S2ORC. The dataset comprises: 217,060 figures from 131,410 open-access papers; 7,507 subplot and subfigure annotations for 2,069 composite figures; and inline references to approximately 25,000 figures from the ROCO dataset.
提供机构:
OpenDataLab
创建时间:
2022-08-16
搜集汇总
数据集介绍

背景与挑战
背景概述
MedICaT是一个医学图像与文本数据集,专注于医学图像、标题、子图-子标题注释和内联文本参考的收集。它包含来自131,410篇开放获取论文的217,060个图形,以及2069个复合图形的7507个子标题和子图形注释,并整合了ROCO数据集中的约25K图形内联参考,旨在支持医疗智慧医疗和自然语言处理任务。
以上内容由遇见数据集搜集并总结生成



