Chest ImaGenome数据集

Name: Chest ImaGenome数据集
Creator: IBM Almaden研究中心
Published: 2021-08-01 04:10:30
License: 暂无描述

arXiv2021-08-01 更新2024-07-25 收录

下载链接：

https://physionet.org/content/chest-imagenome/1.0.0/

下载链接

链接失效反馈

官方服务：

资源简介：

Chest ImaGenome数据集是由IBM Almaden研究中心等机构创建的大型多模态（文本和图像）胸部X光（CXR）图像数据集，旨在促进自动检测放射学发现的研究。该数据集包含242,072张图像，每张图像都与一个场景图数据结构相关联，描述了29个CXR解剖位置及其属性。数据集通过结合基于规则的自然语言处理（NLP）和基于图谱的边界框检测管道自动生成局部标注。此外，数据集还包括了670,000个局部比较关系，用于改善、恶化或无变化的解剖位置跨序贯检查的描述。Chest ImaGenome数据集的应用领域包括临床推理和多模态融合，旨在解决大型局部标注图数据集在医学影像领域的缺失问题。

The Chest ImaGenome dataset is a large-scale multimodal (text and image) chest X-ray (CXR) image dataset developed by IBM Almaden Research Center and other institutions, aiming to advance research on automated detection of radiological findings. This dataset contains 242,072 images, each paired with a scene graph data structure that describes 29 CXR anatomical locations and their corresponding attributes. The local annotations of the dataset are automatically generated by combining rule-based natural language processing (NLP) and graph-based bounding box detection pipelines. In addition, the dataset also includes 670,000 local comparative relations, which are used to describe cross-sequential examinations of anatomical locations with improvements, deteriorations, or no changes. Application scenarios of the Chest ImaGenome dataset include clinical reasoning and multimodal fusion, and it aims to address the shortage of large-scale local annotated graph datasets in the medical imaging field.

提供机构：

IBM Almaden研究中心

创建时间：

2021-08-01

搜集汇总

数据集介绍

构建方式

Chest ImaGenome数据集的构建借鉴了计算机视觉领域的Visual Genome数据集，采用了一种联合基于规则的自然语言处理（NLP）和基于图谱的边界框检测流程来自动生成局部注释。通过放射科医生构建的CXR本体，每个CXR的注释都被连接成一个以解剖为中心的场景图，这对于图像级别的推理和多模态融合应用非常有用。数据集提供了每个图像的结构化场景图，其中包含了29个CXR解剖位置（具有边界框坐标的对象）及其属性之间的1,256种关系组合，以及超过670,000个解剖位置之间的局部比较关系（用于改善、恶化或无变化），以及一个由500个独特患者组成的金标准场景图数据集。

特点

Chest ImaGenome数据集的特点在于它提供了一个大规模的多模态（文本和图像）有序场景图数据集，用于正面的胸部X光（CXR）图像。该数据集的构建方法基于计算机视觉领域的Visual Genome数据集，通过联合基于规则的自然语言处理（NLP）和基于图谱的边界框检测流程来自动生成局部注释。每个CXR的注释都被连接成一个以解剖为中心的场景图，这对于图像级别的推理和多模态融合应用非常有用。数据集提供了每个图像的结构化场景图，其中包含了29个CXR解剖位置（具有边界框坐标的对象）及其属性之间的1,256种关系组合，以及超过670,000个解剖位置之间的局部比较关系（用于改善、恶化或无变化），以及一个由500个独特患者组成的金标准场景图数据集。

使用方法

使用Chest ImaGenome数据集时，用户可以从中获取每个图像的结构化场景图，其中包含了29个CXR解剖位置（具有边界框坐标的对象）及其属性之间的1,256种关系组合，以及超过670,000个解剖位置之间的局部比较关系（用于改善、恶化或无变化）。此外，数据集还提供了一个由500个独特患者组成的金标准场景图数据集，用于评估自动生成的注释质量。用户可以通过PhysioNet的认证访问来获取数据集，并使用提供的支持文件和评估工具来评估数据集的性能。

背景与挑战

背景概述

Chest ImaGenome数据集由IBM Almaden研究中心、麻省理工学院、哈佛医学院等机构的研究人员共同创建，旨在为胸部X光图像（CXR）提供本地标注数据集，以便于对CXR深度学习模型的可解释性进行定量评估。该数据集的构建灵感来源于计算机视觉领域的Visual Genome项目，使用了自然语言处理（NLP）和基于图谱的边界框检测流程来自动生成局部标注。Chest ImaGenome数据集采用场景图数据结构，描述了242,072张CXR图像，并通过放射科构建的CXR本体，将每个CXR的标注连接成一个以解剖为中心的场景图，对于图像级推理和多模态融合应用具有重要意义。该数据集提供了1,256种关系标注的组合，以及超过670,000个局部比较关系，以及一个由500个独特患者组成的黄金标准场景图数据集。

当前挑战

Chest ImaGenome数据集面临的主要挑战包括：1) 定量评估CXR深度学习模型的可解释性，这需要本地标注数据集的支持；2) 自动化地从CXR报告中提取CXR属性（标签）与其在图像上的解剖位置（具有边界框坐标的对象）之间的关系，以及提取序列CXR检查之间的局部关系标注；3) 构建过程中遇到的挑战，如自然语言处理（NLP）和基于图谱的边界框检测流程的性能限制，以及CXR报告中的信息可能不完整或不准确。此外，Chest ImaGenome数据集目前仅包含美国一家医院的来源，其适用性和普适性可能受到限制。

常用场景

经典使用场景

Chest ImaGenome数据集为临床推理提供了一个大规模的多模态场景图数据集，通过场景图数据结构描述了242,072张胸部X光图像。该数据集利用联合规则自然语言处理(NLP)和基于图集的边界框检测流程自动生成局部注释，并通过放射科医生构建的CXR本体，将每张CXR的注释连接成一个以解剖为中心的场景图，这对于图像级推理和多模态融合应用非常有用。

解决学术问题

Chest ImaGenome数据集解决了胸部X光图像自动检测模型的可解释性评估问题。传统的CXR深度学习模型大多使用从文本报告中提取的“弱”全局图像级标签进行训练，或者通过联合图像和非结构化文本学习策略进行训练。Chest ImaGenome数据集通过自动产生局部注释，连接每张CXR的注释作为一个以解剖为中心的场景图，为图像级推理和多模态融合应用提供了丰富的数据支持，有助于提高模型的可解释性和临床应用的可靠性。

衍生相关工作

Chest ImaGenome数据集衍生了许多相关的经典工作，包括：1) Anaxnet：胸部X光图像中解剖感知的多标签发现分类；2) CXpert：具有不确定性标签和专家比较的大型胸部X光图像数据集；3) PadChest：具有多标签注释报告的大型胸部X光图像数据集；4) CheXGCN：使用图卷积网络进行多标签胸部X光图像分类。这些相关工作都基于Chest ImaGenome数据集的丰富数据资源和场景图结构，为胸部X光图像的自动检测、报告生成和临床推理提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集