BIMCV COVID-19+

Name: BIMCV COVID-19+
Creator: Fundación para el Fomento de la Investigación Sanitario y Biomédica de la Comunidad Valenciana
Published: 2020-06-05 20:53:43
License: 暂无描述

arXiv2020-06-05 更新2024-06-21 收录

下载链接：

http://bimcv.cipf.es/bimcv-projects/bimcv-covid19/

下载链接

链接失效反馈

官方服务：

资源简介：

BIMCV COVID-19+是由Valencian Region Medical ImageBank创建的大型数据集，包含1,311名COVID-19患者的胸部X射线图像和CT图像。数据集包括1,380张CR、885张DX和163张CT研究，涵盖广泛的胸部实体。创建过程中，数据经过高分辨率存储，并使用医学影像数据结构（MIDS）格式进行组织。此外，数据集还包括放射学发现、DICOM元数据和诊断抗体测试结果。该数据集旨在支持COVID-19的早期检测和临床决策，是迄今为止最大的开放格式COVID-19图像数据集。

BIMCV COVID-19+ is a large-scale dataset created by the Valencian Region Medical ImageBank, which contains chest X-ray and CT images from 1,311 COVID-19 patients. The dataset comprises 1,380 CR studies, 885 DX studies, and 163 CT studies, covering a broad spectrum of thoracic entities. During its development, the data was stored at high resolution and organized in accordance with the Medical Imaging Data Structure (MIDS) format. Furthermore, the dataset includes radiological findings, DICOM metadata, and diagnostic antibody test results. This dataset aims to support early COVID-19 detection and clinical decision-making, and represents the largest open-format COVID-19 image dataset to date.

提供机构：

Fundación para el Fomento de la Investigación Sanitario y Biomédica de la Comunidad Valenciana

创建时间：

2020-06-02

搜集汇总

数据集介绍

构建方式

在COVID-19全球大流行的背景下，BIMCV COVID-19+数据集通过系统性收集瓦伦西亚地区医疗影像库的胸部X射线和计算机断层扫描影像构建而成。数据采集遵循严格的伦理审查与匿名化流程，涵盖2020年2月26日至4月18日期间经PCR或免疫学检测确诊的患者影像。所有影像均从医疗影像存档系统中提取，并采用医学影像数据结构格式进行组织，确保数据的高分辨率与标准化存储。此外，部分影像经由放射科医师团队手动标注，实现了对关键病变区域的语义分割。

特点

该数据集以其规模宏大与标注精细而著称，共包含来自1,311名患者的5,381幅影像，涵盖CR、DX及CT多种模态。其独特之处在于整合了放射学报告、DICOM元数据及实验室检测结果，并通过自然语言处理技术将影像发现映射至统一医学语言系统术语，覆盖了广泛的胸部病理实体。数据集首次提供了针对COVID-19相关病变的像素级区域标注，且所有数据均以开放格式发布，支持多中心临床研究的纵向分析。

使用方法

研究人员可通过访问BIMCV官方网站获取数据集，下载前需签署终端用户许可协议。数据以医学影像数据结构格式组织，包含影像文件、临床标签及元数据，便于直接用于机器学习模型的训练与验证。该数据集适用于放射学诊断辅助系统的开发、病变自动分割算法的研究，以及COVID-19影像特征的纵向分析。其结构化设计支持与现有医疗人工智能框架无缝集成，为跨学科研究提供了高质量的基础资源。

背景与挑战

背景概述

在2020年全球新冠疫情爆发期间，医学影像数据对于疾病诊断与人工智能算法开发具有关键价值。BIMCV COVID-19+数据集由西班牙瓦伦西亚社区生物医学影像库（BIMCV）联合多家研究机构于2020年6月发布，旨在提供大规模、高质量且公开的COVID-19患者胸部X光与CT影像数据。该数据集涵盖了1311名患者的影像资料，并整合了放射学报告、诊断测试结果及标准化医学术语标注，其核心研究问题聚焦于通过开放数据推动COVID-19的早期检测、病情演变分析及AI辅助诊断工具的研发。作为当时最大的公开COVID-19影像数据集，它不仅丰富了医学影像资源，还为全球科研社区在公共卫生危机中的协同创新提供了重要支持。

当前挑战

该数据集致力于解决COVID-19医学影像分析中的核心挑战，即如何在多模态影像（如X光与CT）中实现高精度病变检测与分类，同时应对数据标注的复杂性，例如对毛玻璃影、实变等细微病变的精准识别。在构建过程中，研究团队面临多重困难：一是数据采集需遵循严格的伦理与隐私规范，涉及多机构协作下的患者信息匿名化处理，包括对西班牙语放射报告的自动化去识别化；二是标注工作依赖专业放射科医生手动完成，部分影像还需进行像素级语义分割，耗时且要求极高的一致性；三是数据整合需兼容DICOM标准与新兴的医学影像数据结构（MIDS），确保多源信息的标准化存储与共享。

常用场景

经典使用场景

在医学影像分析领域，BIMCV COVID-19+数据集为研究人员提供了大规模、高质量且标注丰富的胸部X射线与CT影像资源。该数据集最经典的应用场景在于训练和验证深度学习模型，特别是针对COVID-19肺炎的自动检测与分类任务。通过整合多模态影像数据、放射学报告以及标准化的医学术语标注，该数据集能够支持从影像中识别毛玻璃样变、实变等典型COVID-19肺部病变特征，为构建高精度的计算机辅助诊断系统奠定了坚实基础。

衍生相关工作

围绕BIMCV COVID-19+数据集，已衍生出多项经典研究工作。例如，研究者利用其丰富的标注训练了用于COVID-19检测与严重程度分级的卷积神经网络模型。数据集中的语义分割标注（如毛玻璃影与实变区域）被用于训练U-Net等分割网络，以量化肺部感染范围。其结构化报告与UMLS术语体系也促进了自然语言处理模型在放射报告自动编码与信息提取方面的应用。这些工作共同推动了医学影像人工智能在传染病诊断中的前沿发展。

数据集最近研究