five

PadChest

收藏
arXiv2019-02-07 更新2024-07-30 收录
下载链接:
http://bimcv.cipf.es/bimcv-projects/padchest/
下载链接
链接失效反馈
官方服务:
资源简介:
PadChest是一个大规模、高分辨率的胸部X光图像数据集,包含超过160,000张图像,来自67,000名患者,由西班牙圣胡安医院的放射科医生从2009年到2017年解读并报告。该数据集覆盖了六种不同的位置视图,以及图像采集和患者人口统计的额外信息。报告被标记有174种不同的放射学发现、19种鉴别诊断和104个解剖位置,组织成一个层次分类法,并映射到标准的统一医学语言系统(UMLS)术语。其中27%的报告由训练有素的医生手动标注,其余部分使用基于具有注意力机制的循环神经网络的监督方法进行标注。标签在独立测试集上验证,达到了0.93的Micro-F1分数。据我们所知,这是最大的公开胸部X光数据库之一,适合训练监督模型,并且是第一个包含西班牙语放射学报告的数据集。

PadChest is a large-scale, high-resolution chest X-ray image dataset containing over 160,000 images from 67,000 patients, which were interpreted and reported by radiologists at Hospital San Juan in Spain between 2009 and 2017. This dataset covers six different projection views, as well as additional information about image acquisition and patient demographics. The reports are annotated with 174 distinct radiological findings, 19 differential diagnoses, and 104 anatomical locations, organized into a hierarchical taxonomy and mapped to standard Unified Medical Language System (UMLS) terminology. Twenty-seven percent of these reports were manually annotated by trained physicians, while the remaining portions were annotated using a supervised method based on recurrent neural networks with an attention mechanism. The annotations were validated on an independent test set, achieving a Micro-F1 score of 0.93. To the best of our knowledge, this is one of the largest publicly available chest X-ray databases suitable for training supervised models, and it is the first dataset to include Spanish-language radiological reports.
创建时间:
2019-01-23
搜集汇总
数据集介绍
main_image_url
构建方式
PadChest数据集的构建始于对2009年至2017年间,在西班牙阿利坎特圣胡安医院由18位放射科医生解读和报告的109,931项胸部X光研究进行的数据收集。这些研究共产生了168,861张不同图像,涵盖了六种不同的拍摄位置,并提供了图像采集和患者人口统计的额外信息。在超过160,000张图像中,放射科医生报告了174种不同的放射学发现、19种鉴别诊断和104种解剖位置,并按照层次分类法组织,映射到标准的统一医学语言系统(UMLS)术语。其中27%的报告由经过培训的医生手动标注,其余的报告则使用基于循环神经网络的监督方法进行标注,并使用注意力机制。生成的标签在一个独立的测试集中进行了验证,实现了0.93的微F1分数。
特点
PadChest数据集的特点在于其规模庞大,包含超过160,000张图像,以及多标签标注的报告,这些报告用西班牙语书写,是同类数据集中为数不多的。数据集涵盖了广泛的胸部实体,并提供了实体的定位信息,包括呼吸、心脏、感染、肿瘤、骨骼和软组织诊断等。此外,数据集还提供了包括患者人口统计、投射类型和图像采集参数在内的所有相关元数据。这些信息对于控制预测模型中的潜在混杂因素至关重要。
使用方法
PadChest数据集可用于训练监督模型,以预测特定X光图像中特定异常的风险,从而支持放射科医生的工作流程。数据集可以下载自http://bimcv.cipf.es/bimcv-projects/padchest/。数据集的字段包括图像ID、图像目录、研究ID、患者ID、出生年份、投影类型、报告、标注方法、标签、定位、标签定位按句子排序以及标签和定位的UMLS术语系统唯一标识符。使用该数据集时,研究人员可以探索多输入模型,并利用所有提供的上下文信息,包括图像采集的详细信息、制造商、投影和临床标签,以帮助提高对混杂因素的理解,并开发控制这些因素的方法。此外,研究人员还应认识到放射学发现与鉴别诊断的不同性质,并探索针对具有层次结构关系的标签设计的模型。
背景与挑战
背景概述
PadChest数据集是一个大规模、高分辨率的胸部X光图像数据集,旨在支持医学图像的自动化探索及其相关报告。该数据集包含从2009年到2017年期间,由西班牙圣胡安医院67,000名患者的160,000多张图像,涵盖了六种不同的位置视图,并附有图像获取和患者人口统计学等方面的额外信息。报告被标注了174种不同的放射学发现、19种鉴别诊断和104种解剖部位,并按层次分类法组织,映射到标准的统一医学语言系统(UMLS)术语。这些报告中有27%是由经过培训的医师手动标注的,其余部分是使用基于递归神经网络的监督学习方法进行标注的。这些标签在一个独立的测试集中被验证,达到了0.93的微F1分数。据我们所知,这是目前可用于训练放射学相关监督模型的最大的公开胸部X光数据库之一,也是第一个包含西班牙语放射学报告的数据库。
当前挑战
PadChest数据集面临的主要挑战包括:1)如何对深度学习模型所需的巨量医学图像进行标注,并满足所需的质量。大型众包手标注方法在通用领域已被证明是成功的,例如ImageNet,但由于需要医学专业知识,在医学领域并不可行。此外,从非结构化自然语言语料库中提取医学知识和语义解释仍然是一个挑战,并且是活跃的研究领域。2)需要定义哪些临床相关的图像标签以及如何标注它们。3)如何处理放射学文本中的不确定性。医学数据的特点是不确定性和不完整性,而机器学习决策支持系统(ML-DSS)需要适应反映医学信息本质的输入数据,而不是强加一个不适合患者记录和医学登记的数据准确性和完整性的概念。4)如何有效地控制潜在的混杂因素,例如管子、导管、放射科医师评估的图像质量、患者位置等,以及实体发生率的不平衡,这些模型学会了将这些因素作为预测特征,从而损害了临床放射学模式。
常用场景
经典使用场景
PadChest数据集是医学影像领域的重要资源,其经典的使用场景在于训练深度学习模型进行胸部X光影像的自动分析和诊断。通过对超过16万张胸部X光影像和与之相关的报告进行多标签标注,PadChest数据集为研究人员提供了丰富的训练数据,用于开发能够识别174种不同的放射学发现、19种鉴别诊断和104种解剖位置的模型。这些模型可以辅助放射科医生进行影像解读,提高诊断效率和准确性,尤其是在面对大量影像分析任务时,能够帮助医生优先处理紧急病例。
衍生相关工作
PadChest数据集的发布推动了相关领域的研究工作。例如,研究人员利用该数据集开发了基于深度学习的胸部X光影像自动分析和诊断模型,这些模型在识别肺部疾病、心脏疾病和骨骼疾病等方面取得了显著的成果。此外,PadChest数据集还被用于医学影像教育,为学生和医生提供学习和实践的机会。同时,该数据集的构建方法和标注过程也为医学影像分析领域的研究提供了新的思路和方法。
数据集最近研究
最新研究方向
PadChest数据集的研究方向主要集中在使用深度学习技术,特别是卷积神经网络(CNN)和循环神经网络(RNN),来从胸部X光图像中自动识别和分类多种疾病和病理特征。该数据集的特点在于其大规模、高分辨率以及丰富的多标签注释,包括174种不同的放射学发现、19种鉴别诊断和104种解剖位置,这些注释与标准化的统一医学语言系统(UMLS)术语相映射。这些特性使得PadChest成为训练监督模型的理想选择,这些模型能够预测特定异常的风险,从而支持放射科医生的工作流程。此外,该数据集还包含西班牙语放射学报告,这在公开的胸部X光数据库中是独一无二的,为西班牙语地区的医学影像分析研究提供了宝贵资源。PadChest的最新研究也关注于如何将不确定性纳入基准,区分放射学发现和鉴别诊断,并探索处理医学文本中指代和共指消解的方法。未来的研究可能会涉及探索多输入模型,利用所有提供的上下文信息,以增强对机器学习决策支持系统(ML-DSS)中潜在混杂因素的理解,并开发控制这些因素的方法。
相关研究论文
  • 1
    PadChest: A large chest x-ray image dataset with multi-label annotated reports · 2019年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作