VinDr-CXR

arXiv2025-09-30 收录

下载链接：

https://github.com/vinbigdata-medical/vindr-cxr

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了18,000张胸部X光图像，这些图像带有局部和全局标签。局部标签是根据检查发现推断得出的，而全局标签则指示了疑似疾病。整个数据集规模达到18,000张图像，其任务是对医学图像进行分类。

This dataset contains 18,000 chest X-ray images, which are annotated with both local and global labels. Local labels are inferred based on clinical findings, while global labels indicate suspected diseases. The total size of this dataset is 18,000 images, and its target task is medical image classification.

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，构建高质量标注数据集是推动计算机辅助诊断技术发展的关键。VinDr-CXR数据集的构建过程始于从越南两家大型医院回顾性收集超过10万张胸部X光DICOM图像。通过基于卷积神经网络的分类器自动过滤无效图像，如非胸部部位或低质量扫描，确保数据纯净性。随后，研究团队开发了名为VinDr Lab的标注平台，组织17位经验丰富的放射科医生对筛选后的18,000张图像进行精细标注，涵盖22种局部异常定位标签和6种全局疾病诊断标签。训练集中的每张图像由3位医生独立标注，而测试集则通过5位医生的共识标注形成最终参考标准，有效提升了标注的一致性与可靠性。

使用方法

研究人员可通过PhysioNet平台在签署数据使用协议后获取VinDr-CXR数据集。数据以文件夹形式组织，训练集与测试集分别包含图像文件及对应的CSV标注文件。局部标注文件提供每张图像中异常区域的边界框坐标、标签名称及放射科医生标识，全局标注文件则以向量形式记录图像级疾病分类结果。使用时可借助Python的Pydicom等工具库加载DICOM图像，并结合标注文件构建目标检测或分类任务的数据管道。该数据集适用于训练深度学习模型进行胸部异常定位与疾病诊断，其多医生标注设计支持不确定性建模研究，而测试集的共识标注可作为稳健的性能评估基准。

背景与挑战

背景概述

VinDr-CXR数据集于2020年由越南VinBigData智能健康中心联合河内医科大学医院及108医院共同构建，旨在解决胸部X光影像分析中病灶定位与分类的精细化标注需求。该数据集包含18,000张经过专业放射科医师标注的后前位胸片，涵盖22种局部异常定位标签及6种全局疾病诊断标签，其标注过程通过自主研发的VinDr Lab平台实现，每张训练集图像由三位医师独立标注，测试集则通过五位医师共识确定。作为当前规模最大的放射科医师手动标注胸片公开数据集，VinDr-CXR为医学影像领域的病灶检测与疾病分类算法研究提供了高质量基准，显著推动了计算机辅助诊断系统在临床实践中的可解释性与可靠性发展。

当前挑战

该数据集致力于解决胸部X光影像中多病灶定位与疾病分类的复合性挑战，其核心在于突破传统数据集中仅提供图像级标签的局限，实现像素级异常区域标注与疾病属性的关联映射。构建过程中面临多重挑战：其一，医学数据获取需遵循严格的伦理与隐私规范，原始影像的脱敏处理需平衡信息完整性与患者隐私保护；其二，标注质量依赖于多位资深放射科医师的协同工作，而医师间标注差异的共识达成需要设计多阶段标注流程与仲裁机制；其三，数据清洗需从逾十万张原始影像中筛选有效成人后前位胸片，并开发基于卷积神经网络的自动过滤模型以排除非目标模态及低质量图像。

常用场景

经典使用场景

在医学影像分析领域，VinDr-CXR数据集为胸部X光片的异常检测与定位任务提供了关键支持。该数据集包含18,000张由经验丰富的放射科医师标注的图像，涵盖了22种局部异常标记和6种全局疾病诊断标签，并提供了异常区域的边界框坐标。这使得VinDr-CXR成为训练和评估深度学习模型，特别是用于目标检测和分类的卷积神经网络（CNN）的理想资源。其标注质量高，且训练集与测试集均经过多位放射科医师的独立或共识标注，有效减少了人为偏差，为模型开发提供了可靠的基准。

解决学术问题

VinDr-CXR数据集主要解决了医学影像分析中标注质量不足和定位信息缺失的学术难题。以往的大型胸部X光数据集如ChestX-ray14或CheXpert多依赖自动化工具从放射报告中提取标签，存在噪声高、一致性差的问题，且缺乏异常的具体位置信息。VinDr-CXR通过放射科医师手动标注边界框，提供了精确的局部异常定位，支持模型学习空间特征，从而推动计算机辅助诊断（CAD）系统在异常检测与疾病分类方面的性能提升，促进了弱监督学习、多标签分类及目标检测等研究方向的发展。

实际应用

在实际临床环境中，VinDr-CXR数据集可用于开发智能诊断工具，辅助放射科医师快速识别胸部X光片中的病变。例如，基于该数据集训练的模型能够自动检测肺结节、心脏肥大、肺炎等常见异常，并提供可视化定位，减少漏诊率并提高诊断效率。这些工具可集成到医院的信息系统中，支持大规模筛查项目，尤其在资源有限的地区，有助于缓解放射科医师的工作负担，提升医疗服务的可及性与准确性。

数据集最近研究