COVID-CT-MD

Name: COVID-CT-MD
Creator: 协和信息系统工程研究所
Published: 2020-09-29 04:42:07
License: 暂无描述

arXiv2020-09-29 更新2024-06-21 收录

下载链接：

https://figshare.com/s/c20215f3d42c98f09ad0

下载链接

链接失效反馈

官方服务：

资源简介：

COVID-CT-MD数据集是由协和信息系统工程研究所创建的，专门用于机器学习和深度学习研究的COVID-19 CT扫描数据集。该数据集包含171例COVID-19阳性病例、60例社区获得性肺炎（CAP）病例和76例正常病例，总计307例。数据来源于伊朗德黑兰的Babak影像中心，由三位经验丰富的放射科医生进行患者级、切片级和肺叶级的标注。数据集的创建旨在通过高灵敏度和快速访问的胸部CT扫描，辅助COVID-19的诊断和管理，特别是在机器学习和深度神经网络解决方案的开发中。

The COVID-CT-MD dataset was developed by the Union Information Systems Engineering Research Institute, which is a specialized COVID-19 CT scan dataset for machine learning and deep learning research. It contains 171 COVID-19 positive cases, 60 community-acquired pneumonia (CAP) cases, and 76 normal cases, with a total of 307 cases overall. The data was sourced from the Babak Imaging Center in Tehran, Iran, and annotated at the patient, slice, and lobe levels by three experienced radiologists. The dataset was created to assist in the diagnosis and management of COVID-19 via highly sensitive and rapidly accessible chest CT scans, especially for the development of machine learning and deep neural network-based solutions.

提供机构：

协和信息系统工程研究所

创建时间：

2020-09-29

搜集汇总

数据集介绍

构建方式

在医学影像领域，COVID-CT-MD数据集的构建体现了严谨的临床数据采集与标注流程。该数据集包含171例COVID-19阳性病例、60例社区获得性肺炎（CAP）病例及76例正常病例，所有数据均源自伊朗德黑兰的Babak影像中心，确保了数据来源的一致性。CT扫描采用SIEMENS SOMATOM Scope设备，图像矩阵统一为512×512，采集参数如千伏峰值、曝光时间及层厚均经过标准化处理。数据标注由三位经验丰富的胸科放射科医师独立完成，涵盖了患者级、切片级和肺叶级三个层次，其中切片级与肺叶级标签基于感染区域的显性表现进行标识，标注一致性超过90%。数据采集遵循严格的伦理审查与患者知情同意原则，并通过去标识化处理保护患者隐私。

特点

COVID-CT-MD数据集的显著特点在于其多层次标注体系与临床多样性。数据集不仅提供患者级别的整体诊断标签，还包含精细的切片级与肺叶级感染标注，这为定位与分析肺部感染区域提供了关键信息。此外，数据集涵盖了COVID-19、CAP及正常三类人群，使得模型能够区分不同呼吸道疾病，增强了其在鉴别诊断中的实用性。所有CT扫描均保留完整容积数据，而非仅限感染切片，这支持了全肺部分析与模型训练。数据集的采集参数一致性强，且附有详细的曝光值、性别与年龄分布等统计信息，为算法性能评估提供了丰富的元数据基础。

使用方法

COVID-CT-MD数据集适用于机器学习与深度学习在COVID-19研究中的多项任务。研究者可利用患者级标签进行二分类（COVID-19与非COVID-19）或多分类（COVID-19、CAP、正常）模型开发，以辅助临床诊断。切片级与肺叶级标签支持感染区域的细粒度分类，可用于分离感染与非感染切片，或作为分割模型的辅助输入以聚焦病变区域。此外，这些标签还可用于生成对抗网络等生成模型，合成人工COVID-19影像以增强数据安全性与模型鲁棒性。数据集以DICOM格式存储，并配套提供索引文件及NumPy格式的标签数组，便于直接加载与处理。用户可通过Figshare平台访问数据，并参考已发表的COVID-FACT框架进行模型训练与性能比较。

背景与挑战

背景概述

在新型冠状病毒肺炎（COVID-19）全球大流行的背景下，快速准确的诊断成为遏制疫情蔓延的关键。尽管逆转录聚合酶链反应（RT-PCR）被视为金标准，但其耗时较长且灵敏度有限，而胸部X光检查虽便捷却敏感性不足。计算机断层扫描（CT）凭借其高灵敏度，在辅助诊断中展现出巨大潜力。为此，康考迪亚大学等机构的研究团队于2020年推出了COVID-CT-MD数据集，旨在通过整合COVID-19、社区获得性肺炎（CAP）及健康个体的胸部CT影像，为机器学习与深度学习研究提供高质量、多层级标注的数据资源。该数据集不仅包含患者级、切片级和肺叶级标签，还涵盖了完整的CT扫描体积，显著推动了COVID-19影像诊断算法的开发与优化。

当前挑战

COVID-CT-MD数据集致力于解决COVID-19影像诊断中的核心挑战，即实现高精度、自动化的疾病分类与定位。具体而言，该任务需区分COVID-19、CAP及正常病例，其难点在于病变影像特征的高度相似性与变异性，例如COVID-19与CAP在CT影像中均可能表现为磨玻璃影，导致模型易产生混淆。在数据构建过程中，研究团队面临多重挑战：首先，数据收集需在疫情紧急情况下确保影像质量与一致性，部分病例因RT-PCR检测不可及而依赖临床与影像综合诊断，可能引入标注不确定性；其次，标注工作依赖放射科医师手动完成，尽管达成高度一致性，但轻微运动伪影、病变边界模糊等因素仍可能影响切片级与肺叶级标签的精确性；此外，数据需进行脱敏处理以保护患者隐私，同时保留关键统计特征，平衡信息完整性与伦理要求。

常用场景

经典使用场景

在医学影像分析领域，COVID-CT-MD数据集为研究者提供了多层次的标注信息，使其成为开发与验证新冠肺炎自动诊断模型的核心资源。该数据集通过整合患者层面、切片层面及肺叶层面的精细标注，支持从整体病例分类到局部感染区域识别的多层次研究任务。经典应用场景包括构建端到端的深度学习框架，利用卷积神经网络或胶囊网络对CT影像进行特征提取与模式识别，实现新冠肺炎与社区获得性肺炎、健康人群的精准区分。这种多层次标注体系尤其适用于探索病灶的空间分布规律，为模型的可解释性研究提供了结构化的数据基础。

实际应用

在实际临床环境中，COVID-CT-MD数据集为开发辅助诊断系统提供了重要的训练与验证基础。基于该数据集构建的智能分析模型可集成于医院影像归档与通信系统，实现CT影像的快速初筛与病灶量化评估。这类系统能够辅助放射科医师在繁忙的诊疗工作中提高阅片效率，尤其适用于疫情高峰期医疗资源紧张的场景。此外，数据集包含的社区获得性肺炎病例增强了模型在复杂呼吸系统疾病鉴别中的鲁棒性，降低了误诊风险。其肺叶级感染分布信息还可用于重症患者预后评估，为临床治疗决策提供影像学依据。

衍生相关工作

围绕COVID-CT-MD数据集已衍生出多项具有影响力的研究工作。最具代表性的是COVID-FACT框架，该研究利用数据集的双层级标注特性，构建了基于胶囊网络的两阶段分类模型，首次实现了从感染切片识别到最终病例诊断的端到端自动化流程。同期涌现的研究还包括基于该数据集的多尺度卷积神经网络架构，通过融合肺叶区域特征提升分类性能。此外，部分学者利用其精细标注开发了注意力引导的病灶分割模型，将分类任务与像素级定位相结合。这些工作共同推动了新冠肺炎影像智能诊断从二分类向多疾病鉴别、从整体判断向局部解析的范式演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集