COVIDx-US

Name: COVIDx-US
Creator: 加拿大国家研究委员会
Published: 2021-04-20 21:51:52
License: 暂无描述

arXiv2021-04-20 更新2024-06-21 收录

下载链接：

https://github.com/nrc-cnrc/COVID-US

下载链接

链接失效反馈

官方服务：

资源简介：

COVIDx-US是由加拿大国家研究委员会创建的一个开放访问的超声成像数据集，旨在支持AI驱动的COVID-19分析。该数据集包含150个肺部超声视频和12,943张处理过的图像，涵盖了COVID-19感染、非COVID-19感染、其他肺部疾病及正常控制案例。数据集通过多个来源系统地收集、处理和验证，特别适用于构建和评估人工智能算法和模型。COVIDx-US是同类中最大的开放访问数据集，旨在解决COVID-19筛查、风险分层和治疗规划等问题，支持快速诊断和治疗决策。

COVIDx-US is an open-access ultrasound imaging dataset developed by the National Research Council Canada, intended to support AI-driven COVID-19 analysis. This dataset includes 150 lung ultrasound videos and 12,943 processed images, encompassing cases of COVID-19 infection, non-COVID-19 infection, other pulmonary diseases, and normal controls. Collected, processed and validated systematically from multiple sources, the dataset is specifically suited for the development and evaluation of artificial intelligence algorithms and models. As the largest open-access dataset of its kind, COVIDx-US aims to address critical challenges including COVID-19 screening, risk stratification and treatment planning, and facilitates rapid diagnosis and treatment decision-making.

提供机构：

加拿大国家研究委员会

创建时间：

2021-03-18

搜集汇总

数据集介绍

构建方式

在医学影像分析领域，COVIDx-US数据集的构建体现了系统化与模块化的设计理念。该数据集通过整合四个公开数据源——The POCUS Atlas、GrepMed、Butterfly Network和Life in the Fast Lane的肺部超声视频，构建了一个涵盖COVID-19感染、非COVID-19感染、其他肺部疾病及正常对照的多类别影像库。构建过程中，研究团队开发了针对各数据源的个性化数据采集引擎，自动提取视频及元数据，并采用统一的结构进行本地集成。视频数据经过裁剪处理，针对凸阵和线阵探头分别使用方形和矩形窗口移除周边伪影，随后通过帧提取与掩模生成技术进一步清理图像，最终形成包含150个视频和12,943张处理图像的标准化数据集。

特点

COVIDx-US数据集的核心特点在于其多样性与开放性。作为目前最大的公开全流程管理肺部超声影像数据集，它涵盖了不同探头类型（凸阵与线阵）和多种数据来源的影像，确保了数据在结构和格式上的异质性，从而增强了基于该数据集构建的人工智能模型的泛化能力。数据集提供了灵活的元数据配置，支持用户根据研究需求定义二分类、三分类或四分类问题。此外，所有数据处理脚本均公开可用，采用模块化设计，便于用户扩展数据源或调整参数，体现了高度的可重复性与可扩展性。

使用方法

为促进人工智能在COVID-19筛查与预后分析中的应用，COVIDx-US数据集提供了完整的使用框架。用户可通过访问其GitHub仓库获取数据集及配套的Python脚本。使用流程包括运行脚本从指定数据源采集原始视频，随后依次进行数据裁剪、帧提取和图像清理。用户可根据自身研究目标灵活设置参数，如提取帧数、选择特定疾病类别、数据源或探头类型。清理后的视频与图像将存储于本地结构化目录中，并附有详细的元数据文件。该设计使得研究人员能够便捷地构建和评估深度学习模型，推动肺部超声影像分析的算法创新。

背景与挑战

背景概述

在新型冠状病毒肺炎（COVID-19）全球大流行的背景下，肺部超声成像因其无创、便携及易于消毒等优势，逐渐成为辅助筛查与预后评估的重要工具。为应对传统RT-PCR检测在灵敏度、设备依赖及临床决策支持方面的局限，由加拿大国家研究委员会、滑铁卢大学等机构的研究人员于2020年共同创建了COVIDx-US数据集。该数据集旨在通过系统整合多源肺部超声影像，构建一个开放、标准化的基准资源，以支持人工智能驱动的COVID-19分析模型开发与评估，推动快速筛查、风险分层及治疗规划等关键临床应用。

当前挑战

COVIDx-US数据集致力于解决肺部超声影像在COVID-19智能诊断中的核心挑战，即如何从高噪声、低对比度的超声图像中准确识别病毒性肺炎的细微特征，如胸膜增厚、B线异常等。在构建过程中，研究团队面临多重挑战：其一，数据来源于多个异构平台，影像在探头类型、分辨率及格式上差异显著，需设计统一的数据清洗与标准化流程；其二，原始视频常包含测量标记、文本等干扰信息，需开发自适应裁剪与修复算法以保留有效区域；其三，确保数据类别平衡与临床标注的可靠性，以增强模型在真实场景中的泛化能力。

常用场景

经典使用场景

在医学影像分析领域，COVIDx-US数据集为研究者提供了评估和开发人工智能算法的重要基准。该数据集通过整合来自多个公开来源的肺部超声影像，构建了包含COVID-19感染、非COVID-19感染、其他肺部疾病及正常对照的四分类体系。其经典应用场景聚焦于深度学习模型的训练与验证，特别是针对卷积神经网络在超声影像自动分类任务中的性能评估。研究人员利用该数据集进行模型比较、算法鲁棒性测试以及特征可视化分析，推动了超声影像智能诊断技术的标准化进程。

衍生相关工作

围绕COVIDx-US数据集已衍生出多个具有影响力的研究方向与技术框架。以COVID-Net系列研究为代表，研究者构建了专门针对超声影像的轻量化神经网络架构，实现了高精度的多分类诊断。在可解释性人工智能领域，基于该数据集的梯度类激活映射技术揭示了模型决策所依赖的影像区域，增强了临床可信度。跨模态学习研究尝试将超声影像特征与胸部X光、CT影像进行关联分析，探索多源信息融合的诊断范式。此外，数据增强与域自适应方法通过利用该数据集的异构特性，显著提升了模型在新采集数据上的泛化性能，推动了超声影像分析技术的实际落地。

数据集最近研究