five

PediCXR

收藏
arXiv2023-03-21 更新2024-06-21 收录
下载链接:
https://physionet.org/content/pedicxr/1.0.0/
下载链接
链接失效反馈
官方服务:
资源简介:
PediCXR是由越南智能健康中心和VinBigData有限责任公司创建的大型开放式儿童胸部放射图像数据集,包含9,125项研究,用于解释儿童常见胸腔疾病。数据集从2020年至2021年从越南一家主要儿科医院回顾性收集,每项扫描均由具有十年以上经验的儿科放射科医生手动标注,标记了36种关键发现和15种疾病。数据集分为训练集7,728项和测试集1,397项,旨在通过数据驱动方法推动儿科CXR解释的新进展,特别适用于开发和评估用于检测和定位儿科CXR图像中异常的机器学习算法。

PediCXR is a large-scale open-access pediatric chest radiographic image dataset developed by the Vietnamese Intelligent Health Center and VinBigData Co., Ltd. It encompasses 9,125 studies focused on interpreting common pediatric thoracic diseases. The dataset was retrospectively collected from a leading pediatric hospital in Vietnam between 2020 and 2021. Each scan was manually annotated by pediatric radiologists with over ten years of professional experience, with 36 key findings and 15 disease categories labeled. The dataset is split into a training set consisting of 7,728 studies and a test set with 1,397 studies. It aims to promote novel advancements in pediatric CXR interpretation via data-driven approaches, and is particularly suitable for developing and evaluating machine learning algorithms designed to detect and localize abnormalities in pediatric CXR images.
提供机构:
智能健康中心,VinBigData有限责任公司,越南河内
创建时间:
2022-03-21
搜集汇总
数据集介绍
main_image_url
构建方式
在儿科胸部影像学领域,高质量标注数据的匮乏长期制约着计算机辅助诊断系统的研发。PediCXR数据集的构建遵循严谨的医学研究流程,其核心步骤包括数据收集、去标识化、筛选与标注。该数据集回顾性采集了越南一家主要儿科医院在2020年至2021年间的9,125例后前位胸部X光检查,所有影像均以DICOM格式保存。为确保患者隐私,研究团队采用两阶段去标识化流程,移除所有受保护的健康信息。随后,通过轻量级卷积神经网络与人工核查相结合的方式,滤除了成人影像、非胸部影像及低质量图像等异常数据。标注工作由至少拥有十年经验的三位儿科放射科医生借助定制化的网络标注平台VinDr Lab远程完成,每张影像均标注了36种关键发现的边界框位置(局部标签)及15种疾病的图像级诊断印象(全局标签)。最终,数据集被随机划分为包含7,728张影像的训练集和1,397张影像的测试集,以支持算法开发。
特点
PediCXR数据集在儿科胸部X光影像资源中展现出显著优势。其规模在当前公开数据集中居于领先地位,涵盖了9,125例10岁以下患者的后前位影像。该数据集的核心特征在于其标注的丰富性与精细度,不仅提供了涵盖肺炎、支气管炎等15种常见胸部疾病的图像级分类标签,更创新性地引入了针对36种关键放射学发现的边界框标注,实现了病灶级别的精确定位。这种双重标注体系为开发可解释的人工智能模型提供了宝贵基础。与以往多数专注于单一疾病的儿科数据集相比,PediCXR的多标签标注结构能够支持更复杂的多疾病检测与鉴别诊断研究。数据集的年龄与性别分布反映了真实的临床患者群体特征,为模型泛化性能评估提供了现实依据。
使用方法
PediCXR数据集旨在推动基于数据驱动的儿科胸部X光影像分析研究。研究者可通过PhysioNet平台在遵守相关数据使用协议的前提下获取该数据集。数据以标准文件夹结构组织,分别提供训练集与测试集的原始DICOM影像文件。标注信息以CSV格式文件提供,其中包含边界框坐标、对应的发现类别以及图像级的多标签向量。该数据集主要适用于两大研究任务:一是开发与验证用于儿科常见胸部疾病自动分类的预测模型;二是构建能够对X光影像中多种异常发现进行精确定位的目标检测模型。在使用时,研究者需注意数据集在罕见疾病与发现方面样本量有限的约束,这可能会影响相关类别监督学习模型的可靠性。此外,数据集未包含临床文本信息,这要求模型完全依赖于影像特征进行分析。任何基于此数据集的研究成果均需引用原始论文以确保学术规范性。
背景与挑战
背景概述
在医学影像分析领域,儿科胸部X光(CXR)的自动诊断系统发展相对滞后,主要源于高质量标注数据的匮乏。PediCXR数据集由越南VinBigData JSC智能健康中心的研究团队于2021年创建,旨在填补这一空白。该数据集回顾性收集了2020年至2021年间越南一家主要儿科医院的9,125例儿科CXR扫描,并由经验丰富的儿科放射科医生手动标注了36种关键发现和15种疾病,同时提供了病变级别的边界框注释。作为目前最大规模的公开儿科CXR数据集,PediCXR不仅推动了基于机器学习的儿科胸部疾病检测与定位研究,还为临床辅助诊断工具的开发提供了关键数据支持,显著促进了儿科影像学领域的数据驱动方法进展。
当前挑战
PediCXR数据集面临的挑战主要体现在两个方面:在领域问题层面,儿科CXR图像解读本身存在复杂性,由于儿童生理结构随年龄变化显著,疾病表现多样且细微,导致模型在识别多类疾病(如肺炎、支气管炎等)时难以达到高精度与鲁棒性;同时,数据集中罕见疾病与发现的样本数量有限,制约了监督学习算法在全面诊断中的可靠性。在构建过程中,挑战包括数据收集与标注的高成本,需依赖资深儿科放射科医生进行精细注释,且需处理原始数据中的异常值(如成人CXR、低质量图像等);此外,为保护患者隐私,数据脱敏过程需严格遵守HIPAA等法规,确保所有可识别信息被彻底移除,这增加了数据预处理的技术与时间负担。
常用场景
经典使用场景
在儿科医学影像分析领域,PediCXR数据集为开发基于深度学习的胸部X光片自动诊断模型提供了关键资源。该数据集包含9,125张儿童胸部X光片,每张图像均由经验丰富的儿科放射科医师标注了36种关键发现和15种常见胸部疾病,并提供了病灶级别的边界框注释。这一丰富注释结构使得研究者能够构建多标签分类和病灶定位模型,用于识别如肺炎、支气管炎等儿童常见胸部疾病,推动了儿科影像诊断算法的精准化发展。
实际应用
在实际临床环境中,PediCXR数据集支持开发儿科胸部X光片的计算机辅助诊断工具,辅助放射科医师快速识别异常发现。例如,模型可自动检测肺炎、心血管疾病等常见病症,减轻医师工作负担,尤其在医疗资源匮乏地区提升诊断效率。此外,数据集中的边界框注释有助于构建可视化诊断系统,增强临床决策的透明度,为儿科影像的标准化解读提供技术支撑。
衍生相关工作
基于PediCXR数据集,多项经典研究工作得以展开,如Tran等人提出的深度学习网络用于儿科胸部X光片的多疾病诊断,该研究在数据集测试集上实现了0.709的AUC值。此外,数据集促进了病灶检测与分类联合模型的探索,以及针对儿童影像特征的迁移学习算法优化。这些工作不仅验证了数据集的实用性,还推动了儿科影像人工智能领域向更精细、更可靠的诊断方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作