COUGHVID

Name: COUGHVID
Creator: 洛桑联邦理工学院嵌入式系统实验室
Published: 2020-09-24 20:58:41
License: 暂无描述

arXiv2020-09-24 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2009.11644v1

下载链接

链接失效反馈

官方服务：

资源简介：

COUGHVID数据集是由洛桑联邦理工学院嵌入式系统实验室创建，包含超过20,000条来自不同年龄、性别、地理位置和COVID-19状态的咳嗽录音。数据集通过开放源代码的咳嗽检测算法进行筛选，并由经验丰富的肺科医生对超过2,000条录音进行标注，以诊断咳嗽中的医疗异常。该数据集旨在通过提供大量咳嗽录音来训练机器学习模型，以应对全球最紧迫的健康危机，特别是COVID-19的筛查。

The COUGHVID dataset was created by the Embedded Systems Laboratory at the École Polytechnique Fédérale de Lausanne. It contains over 20,000 cough audio recordings collected from individuals with diverse ages, genders, geographic locations, and COVID-19 infection statuses. The dataset was screened using open-source cough detection algorithms, and more than 2,000 of these recordings were annotated by experienced pulmonologists to diagnose medical abnormalities in coughs. This dataset aims to train machine learning models by providing a large volume of cough audio recordings to address the most pressing global health crisis, particularly COVID-19 screening.

提供机构：

洛桑联邦理工学院嵌入式系统实验室

创建时间：

2020-09-24

搜集汇总

数据集介绍

构建方式

在呼吸系统疾病诊断领域，咳嗽音频分析已成为一种非侵入性筛查手段。COUGHVID数据集的构建采用了众包收集策略，通过部署于瑞士洛桑联邦理工学院的网络应用，于2020年4月至9月间采集了超过20,000条咳嗽录音。为确保数据质量，研究团队开发了基于XGBoost的咳嗽检测模型，自动过滤非咳嗽音频，并设定概率阈值以筛选有效样本。进一步地，三位资深肺科医生对超过2,000条录音进行了临床标注，涵盖咳嗽类型、严重程度及潜在病理特征，从而构建了一个兼具规模与专业验证的咳嗽音频数据库。

使用方法

COUGHVID数据集适用于机器学习模型在呼吸音分析中的训练与评估。研究者可基于音频文件与配套的JSON格式元数据，开发咳嗽检测、病理分类或症状严重度预测算法。元数据中的专家标签与自报告信息可作为监督学习的标注来源，而咳嗽检测概率值有助于筛选高质量子集。数据集还提供了未公开的测试集，支持通过独立评估协议验证模型性能，促进其在COVID-19筛查及其他呼吸道疾病诊断中的泛化应用。

背景与挑战

背景概述

在2020年全球新冠疫情肆虐的背景下，瑞士洛桑联邦理工学院嵌入式系统实验室的研究团队于同年4月至9月间，创建了COUGHVID数据集。该数据集旨在应对大规模、低成本的新冠病毒筛查需求，通过众包方式收集了超过两万条咳嗽录音，覆盖了不同年龄、性别、地理区域及健康状况的广泛人群。研究团队不仅运用机器学习算法对录音进行了咳嗽检测筛选，还邀请了资深肺科专家对两千余条录音进行了医学标注，诊断了咳嗽中可能存在的异常体征。这一举措使得COUGHVID成为当时规模最大、且经过专家验证的公开咳嗽音频数据集，为利用人工智能技术进行呼吸系统疾病诊断，尤其是新冠疫情的早期筛查，提供了宝贵的数据资源。

当前挑战

COUGHVID数据集所针对的核心挑战在于如何通过咳嗽音频分析实现呼吸系统疾病，特别是COVID-19的自动诊断。这一领域问题面临多重困难：咳嗽声音的细微差异往往与多种呼吸道疾病交叉重叠，使得模型区分特定病因（如COVID-19与其他感染）极具复杂性；同时，个体差异、录音设备多样性及环境背景噪声进一步增加了特征提取与分类的难度。在数据集构建过程中，研究团队亦遭遇显著挑战：众包数据中混杂大量非咳嗽音频，需开发高效的咳嗽检测算法进行清洗；专家标注方面，不同肺科医生对咳嗽的诊断一致性较低，尤其在COVID-19的判断上存在分歧，这反映了基于咳嗽声音进行医学诊断的主观性与不确定性。此外，确保数据的地理代表性及隐私保护亦需精细设计。

常用场景

经典使用场景

在呼吸系统疾病诊断领域，COUGHVID数据集为大规模咳嗽音频分析算法的开发提供了关键支持。该数据集通过众包方式收集了超过20,000条咳嗽录音，覆盖了不同年龄、性别、地理位置及COVID-19状态的广泛人群，并经过专业肺科医生的标注，确保了数据的临床可靠性。其经典使用场景在于训练机器学习模型，特别是深度学习算法，用于自动识别咳嗽声音中的病理特征，如干咳与湿咳的区分、呼吸异常音（如喘息、鼻塞）的检测，以及COVID-19的初步筛查。这些应用不仅提升了咳嗽音频分类的准确性，还为远程医疗和公共卫生监测提供了技术基础。

解决学术问题

COUGHVID数据集有效解决了呼吸音频分析领域中的多个核心学术问题。首先，它填补了大规模、高质量标注咳嗽数据集的空白，克服了以往数据集样本量小、标注不完整或缺乏临床验证的局限。其次，数据集通过专家标注提供了咳嗽类型、严重程度及伴随症状的详细信息，支持了多类别呼吸疾病分类模型的研究，如区分COVID-19与其他呼吸道感染。此外，数据集的多样性和地理代表性促进了算法在泛化能力上的优化，减少了因人口偏差导致的模型性能下降。这些贡献推动了咳嗽声音分析在医学人工智能中的标准化进程。

实际应用

在实际应用中，COUGHVID数据集为低成本、快速且可扩展的COVID-19筛查技术开发提供了数据支撑。基于该数据集训练的模型可集成到智能手机应用中，实现非侵入式的咳嗽声音实时分析，辅助早期疫情监测和个体健康管理。例如，在资源有限的地区，这种技术可作为传统核酸检测的补充工具，帮助识别潜在感染者并进行接触者追踪。同时，数据集还可用于开发针对其他呼吸道疾病（如哮喘、肺炎）的辅助诊断系统，提升基层医疗服务的效率和可及性。

数据集最近研究