Coswara数据集

Name: Coswara数据集
Creator: LEAP实验室，印度科学研究所
Published: 2021-10-11 20:28:06
License: 暂无描述

arXiv2021-10-11 更新2024-06-21 收录

下载链接：

https://coswara.iisc.ac.in/

下载链接

链接失效反馈

官方服务：

资源简介：

Coswara数据集是由印度科学研究所LEAP实验室创建的，旨在通过声音分析辅助COVID-19的诊断。该数据集包含来自全球不同年龄和健康状况的志愿者的声音记录，包括呼吸、咳嗽和语音信号。创建过程中，志愿者通过网络连接的设备在安静环境中录制声音，并提供年龄、性别和健康状况等元数据。该数据集主要用于机器学习和信号处理领域，以开发快速、便捷且成本效益高的COVID-19检测工具。

The Coswara dataset was developed by the LEAP Lab at the Indian Institute of Science, with the objective of facilitating COVID-19 diagnosis through audio analysis. This dataset includes audio recordings from volunteers across the globe with diverse age groups and health conditions, encompassing respiratory, cough, and speech signals. During its creation, volunteers recorded audio using internet-connected devices in quiet environments, and provided metadata such as age, gender, and health status. This dataset is primarily employed in the fields of machine learning and signal processing to develop rapid, convenient, and cost-effective COVID-19 detection tools.

提供机构：

LEAP实验室，印度科学研究所

创建时间：

2021-10-04

搜集汇总

数据集介绍

构建方式

Coswara数据集的构建，旨在促进基于声学检测COVID-19的研究。数据集由来自全球志愿者在安静环境中录制的呼吸、咳嗽和语音音频信号组成。志愿者首先提供个人信息，如年龄和性别，然后回答关于健康状况的问题，包括症状、现有呼吸系统疾病和共病情况。COVID-19状态通过询问志愿者是否当前为COVID-19阳性、已康复、通过主要接触者暴露于COVID-19患者或健康来确定。之后，志愿者记录了对应于9个音频类别的声学数据，包括浅呼吸和深呼吸、浅咳嗽和重咳嗽、元音的持续发音和快速和正常节奏的数字计数。最后，数据集仅包含年龄在15-90岁之间，且音频记录持续时间大于500毫秒的受试者。COVID-19阳性受试者被分为无症状和有症状两个子类别，而非COVID-19受试者被分为健康和有类似COVID-19症状两个子类别。

特点

Coswara数据集具有以下特点：1. 数据集包含来自COVID-19感染者和非感染者个体的音频记录；2. 数据集由呼吸、咳嗽和语音三个音频类别组成；3. 数据集在年龄和性别分布上进行了匹配；4. 数据集提供了训练集和验证集的划分，方便参与者进行模型超参数调整；5. 数据集提供了盲测试集，用于评估模型的泛化能力。

使用方法

Coswara数据集的使用方法如下：1. 数据预处理：将音频样本标准化，并丢弃低活动区域；2. 特征提取：使用短时窗提取音频样本的log mel-spectrogram特征；3. 分类器：使用双向长短期记忆（BiLSTM）网络和全连接层进行音频信号建模；4. 训练：使用二元交叉熵损失函数和Adam优化器进行模型训练；5. 推理：对音频文件进行特征提取，并输入训练好的分类器，得到COVID-19感染概率分数。

背景与挑战

背景概述

Coswara数据集是由印度科学学院LEAP实验室的研究团队于2020年4月至2021年7月期间，通过全球志愿者收集的音频数据集。该数据集旨在推动基于声学技术的COVID-19检测研究，涉及声学、信号处理、机器学习和医疗保健等多个领域。数据集由呼吸、咳嗽和语音信号组成，分为两类：非COVID-19和COVID-19。在第二届DiCOVA挑战赛中，研究人员利用该数据集进行二分类任务，旨在评估基于声学的COVID-19诊断方法的性能。该挑战赛促进了跨学科合作，为COVID-19的快速、远程和准确诊断提供了新的研究视角。

当前挑战

Coswara数据集在构建过程中面临的主要挑战包括数据的不平衡性，即COVID-19病例数量较少，这反映了真实世界场景中点对点测试的设计。此外，由于COVID-19病毒的新变种不断出现，数据集的时效性和代表性也面临挑战。在研究过程中，研究人员需要设计有效的特征提取和分类模型，以克服这些挑战，提高诊断的准确性和可靠性。此外，如何确保数据集的公平性和可重复性，也是该领域面临的重要挑战之一。

常用场景

经典使用场景

Coswara数据集是一个众包的音频记录数据集，用于COVID-19的诊断研究。该数据集包含了来自不同年龄、性别和健康状况的个体的呼吸、咳嗽和语音信号。这些数据被用于训练和评估机器学习模型，以区分COVID-19阳性和非COVID-19个体。该数据集被用于DiCOVA挑战赛，旨在促进基于声学的COVID-19检测研究。挑战赛要求参与者设计二元分类器，使用呼吸、咳嗽和语音信号来检测个体的COVID/非COVID健康状况。

衍生相关工作

Coswara数据集衍生了几个相关的经典工作。DiCOVA挑战赛是该数据集的一个主要应用，它吸引了来自学术界和工业界的28个团队参与。此外，该数据集还被用于其他研究，例如COVID-19Sounds数据集、Buenos Aires COVID-19Cough数据集、COUGHVID数据集和COVID-19Open COUGH数据集。这些研究旨在探索基于声学的COVID-19检测的可能性，并开发新的诊断工具。

数据集最近研究