NIH-CXR-LT, MIMIC-CXR-LT

Name: NIH-CXR-LT, MIMIC-CXR-LT
Creator: 德克萨斯大学奥斯汀分校
Published: 2022-08-29 12:34:15
License: 暂无描述

arXiv2022-08-29 更新2024-06-21 收录

下载链接：

https://github.com/VITA-Group/LongTailCXR

下载链接

链接失效反馈

官方服务：

资源简介：

本研究介绍了两个用于胸部X光片上胸腔疾病长尾分类的大型数据集NIH-CXR-LT和MIMIC-CXR-LT，旨在解决医学图像分类中的长尾分布问题。这两个数据集包含19和20种胸腔疾病分类，训练图像数量从7到53000不等，反映了自然分布的胸腔X光数据。数据集通过引入新的罕见疾病发现，如主动脉钙化、皮下气肿等，来创建自然的长尾分布，无需人工子采样。这些数据集的应用领域包括开发和评估针对医学图像长尾分类的方法，以提高对罕见但关键的“尾”类别的分类准确性。

This study presents two large-scale datasets, NIH-CXR-LT and MIMIC-CXR-LT, for long-tailed classification of thoracic diseases from chest X-rays, which are designed to address the long-tailed distribution problem in medical image classification. These two datasets encompass 19 and 20 thoracic disease categories respectively, with the number of training images ranging from 7 to 53,000, reflecting the naturally distributed chest X-ray data. The datasets are constructed to form a natural long-tailed distribution by incorporating newly discovered rare diseases such as aortic calcification and subcutaneous emphysema, without manual subsampling. The application scenarios of these datasets include developing and evaluating methods for long-tailed classification of medical images, to improve the classification accuracy of rare but critical "tail" categories.

提供机构：

德克萨斯大学奥斯汀分校

创建时间：

2022-08-29

搜集汇总

数据集介绍

构建方式

NIH-CXR-LT和MIMIC-CXR-LT数据集的构建基于现有的NIH ChestXRay14和MIMIC-CXR数据集，通过引入五种新的罕见疾病发现（如钙化主动脉、皮下气肿等），从放射学报告中提取并标记。这些新添加的疾病标签帮助创建了自然的长尾分布，而无需人工子采样。数据集被分为训练、验证、测试和平衡测试集，确保在患者级别进行分割以防止数据泄露。最终，NIH-CXR-LT包含20个类别，MIMIC-CXR-LT包含19个类别，分别具有极端的类别不平衡。

使用方法

使用NIH-CXR-LT和MIMIC-CXR-LT数据集时，研究者可以评估和开发针对长尾分布的分类方法。数据集支持多种评估方式，包括在平衡测试集和非平衡测试集上的准确率、Macro-F1分数和平衡准确率。研究者可以使用这些数据集来训练和验证模型，特别是在处理医学图像分类中的类别不平衡问题时，这些数据集提供了宝贵的资源和挑战。

背景与挑战

背景概述

胸腔疾病的长尾分类问题在胸部X光片分析中具有重要意义。NIH-CXR-LT和MIMIC-CXR-LT数据集由德克萨斯大学奥斯汀分校、德克萨斯A&M大学、国家卫生研究院和威尔康奈尔医学院的研究团队共同创建，旨在解决胸部X光片中常见与罕见疾病分类的难题。这些数据集包含超过200,000张标注的胸部X光片，涵盖19至20种胸腔疾病，其中某些罕见疾病的标注图像数量极少。该研究不仅为长尾学习方法在医学图像分类中的应用提供了新的基准，还推动了相关领域的发展，特别是在提高对罕见疾病识别的准确性方面。

当前挑战

NIH-CXR-LT和MIMIC-CXR-LT数据集面临的主要挑战包括：1) 长尾分布导致的类别不平衡问题，使得标准深度学习方法偏向于常见疾病，而忽视罕见疾病；2) 数据集构建过程中，如何在不进行人工子采样的情况下，自然地生成长尾分布，以及如何从放射学报告中提取新的罕见疾病标签。此外，现有方法在处理这些数据集时，往往难以在保持常见疾病分类准确性的同时，提升罕见疾病的识别率。这些挑战要求开发新的长尾学习方法，以优化胸部X光片中各类疾病的分类性能。

常用场景

经典使用场景

NIH-CXR-LT和MIMIC-CXR-LT数据集在胸腔疾病的长尾分类任务中展现了其经典应用场景。这些数据集通过引入高度不平衡的疾病类别分布，模拟了临床实践中常见的罕见疾病识别挑战。研究者利用这些数据集开发和评估长尾学习方法，旨在提高对罕见胸腔疾病的分类准确性，从而为临床诊断提供更全面的支持。

解决学术问题

NIH-CXR-LT和MIMIC-CXR-LT数据集解决了医学影像分析中长期存在的类别不平衡问题。通过提供一个包含大量标签图像的基准，这些数据集促进了长尾学习算法的发展，使得机器学习模型能够更有效地识别和分类罕见疾病。这不仅提升了学术研究的深度和广度，还为实际临床应用提供了理论基础和技术支持。

实际应用

在实际应用中，NIH-CXR-LT和MIMIC-CXR-LT数据集被广泛用于开发和验证针对胸腔X光片的自动诊断系统。这些系统通过集成先进的长尾学习算法，能够更准确地识别和报告罕见疾病，从而辅助放射科医生进行更精确的诊断。此外，这些数据集还支持了跨机构的数据共享和协作研究，推动了全球范围内医学影像分析技术的发展。

数据集最近研究