five

VinDr-CXR

收藏
arXiv2022-03-21 更新2024-06-21 收录
下载链接:
https://physionet.org/content/vindr-cxr/1.0.0/
下载链接
链接失效反馈
官方服务:
资源简介:
VinDr-CXR数据集是由越南河内的两家主要医院——医院108和河内医科大学医院合作创建的,包含18,000张胸部X光片。这些图像由17名经验丰富的放射科医生进行标注,涵盖了22种局部标签和6种全局标签,用于定位异常和诊断常见胸部疾病。数据集分为15,000张的训练集和3,000张的测试集,每张图像都经过至少3名放射科医生的独立标注。该数据集旨在支持计算机辅助诊断系统的发展,特别是在胸部X光片的异常检测和定位方面。

The VinDr-CXR dataset was collaboratively created by two major hospitals in Hanoi, Vietnam – Hospital 108 and Hanoi Medical University Hospital. It comprises 18,000 chest X-ray images, which were annotated by 17 experienced radiologists. The annotations cover 22 local labels and 6 global labels, used for anomaly localization and diagnosis of common thoracic diseases. The dataset is split into a training set of 15,000 images and a test set of 3,000 images, with each image independently annotated by at least 3 radiologists. This dataset aims to support the development of computer-aided diagnosis systems, especially for anomaly detection and localization on chest X-ray images.
提供机构:
智能健康中心,VinBigData JSC,河内,越南
创建时间:
2020-12-30
搜集汇总
数据集介绍
main_image_url
构建方式
VinDr-CXR数据集的构建始于2018年至2020年期间,从越南两家主要医院(H108和HMUH)的PACS服务器中收集超过10万张DICOM格式的胸片。收集的原始数据经过数据脱敏处理,以保护患者隐私,并利用CNN模型自动过滤掉不合格的图像。随后,由17位经验丰富的放射科医生对剩余的18,000张胸片进行人工标注,包括22种局部病变标签和6种全局诊断标签。最后,将标注好的数据集分为训练集和测试集,分别包含15,000张和3,000张图像。
使用方法
使用VinDr-CXR数据集时,用户需要接受PhysioNet Credentialed Health Data License 1.5.0的Date Usage Agreement。数据集包括训练集和测试集,其中训练集包含15,000张图像,测试集包含3,000张图像。每个图像都包含局部和全局标签,以及相应的图像ID。用户可以根据需要下载CSV格式的标注文件,以及DICOM格式的图像文件。此外,用户还可以访问VinDr Lab平台,该平台提供了数据管理和标注工具,方便用户进行数据分析和模型训练。
背景与挑战
背景概述
VinDr-CXR数据集的创建是为了解决现有胸部X光片数据集在标签质量上的不足。该数据集于2020年由越南VinBigData JSC和VinUniversity的Smart Health Center的研究团队构建,并由来自越南两家主要医院的17位经验丰富的放射科医生手动标注。数据集包含超过18,000张胸部X光片,分为训练集15,000张和测试集3,000张。每张图像都有22个局部标签,标注了异常的定位,以及6个全局标签,标注了疑似疾病的诊断。VinDr-CXR数据集的创建为胸部X光片计算机辅助诊断(CAD)系统的发展提供了高质量的数据支持,推动了深度学习模型在定位和分类胸部病变方面的研究。
当前挑战
VinDr-CXR数据集在构建过程中面临了多个挑战。首先,从医院或医疗中心获取医疗数据是困难的。其次,由医生手动标注数据成本高昂且耗时长。第三,医疗图像的标注需要多位专家读者的共识来克服人为偏差。最后,缺乏一个有效的标注框架来管理和标注大规模的医疗图像。此外,现有的大多数胸部X光片数据集依赖于自动化的基于规则的标签器,这些标签器可能引入高不一致性、不确定性和错误,导致深度学习算法在现实世界环境下的性能偏差。VinDr-CXR数据集通过提供由放射科医生生成的标注,旨在解决这些挑战,并为胸部X光片解释领域的研究提供高质量的数据支持。
常用场景
经典使用场景
VinDr-CXR数据集的构建,旨在为计算机辅助诊断(CAD)系统提供高质量的训练数据。该数据集包含了超过18,000张胸片,并由17位经验丰富的放射科医生进行了详细标注,包括22种局部标签(矩形框标注的异常)和6种全局标签(疑似疾病的诊断)。这些数据被分为训练集(15,000张)和测试集(3,000张),训练集中的每张图片由3位放射科医生独立标注,而测试集中的每张图片则由5位放射科医生共同达成共识标注。VinDr-CXR数据集的这种设计,使其成为了训练深度学习模型进行胸片异常检测和定位的理想数据集,尤其在解决标注不一致性和标注质量问题上具有重要意义。
解决学术问题
VinDr-CXR数据集解决了现有胸片数据集中存在的标注质量和标注一致性问题。许多现有的胸片数据集依赖自动化规则基础的标注工具,这些工具虽然能够大规模生产标签,但往往引入了高不一致性、不确定性和错误。VinDr-CXR数据集通过人工标注的方式,确保了标注的质量和一致性,为研究社区提供了宝贵的资源。此外,VinDr-CXR数据集还提供了详细的局部标签,使得模型能够学习到异常的定位信息,这对于胸片的解读和诊断至关重要。
实际应用
VinDr-CXR数据集在实际应用中,可以用于训练和评估深度学习模型,以实现对胸片异常的自动检测和定位。这些模型可以辅助放射科医生进行疾病诊断,提高诊断的准确性和效率。此外,VinDr-CXR数据集还可以用于开发新的CAD系统,以进一步推动胸片诊断的自动化和智能化。
数据集最近研究
最新研究方向
VinDr-CXR数据集的发布为胸部X射线影像的分析和诊断提供了新的研究契机。该数据集的特点在于其包含了由放射科医生提供的精确标注,这些标注不仅涵盖了胸部常见疾病的分类,还包括了异常病变的定位信息。这使得VinDr-CXR成为目前最大的公开胸部X射线数据集之一,能够推动机器学习模型在胸部病变定位和分类方面的研究和评估。VinDr-CXR数据集的出现,不仅有助于提高计算机辅助诊断系统的性能,同时也为临床实践中的应用提供了重要的数据支持。未来的研究可能集中在利用该数据集进一步训练和优化深度学习模型,以实现更精确的胸部病变检测和定位,从而辅助放射科医生进行更准确的诊断和治疗。
相关研究论文
  • 1
    VinDr-CXR: An open dataset of chest X-rays with radiologist's annotations智能健康中心,VinBigData JSC,河内,越南 · 2022年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作