VocalSound

arXiv2022-06-18 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2205.03433v2

下载链接

链接失效反馈

官方服务：

资源简介：

VocalSound数据集包含超过21,000个众包录制的笑声、叹息、咳嗽、清喉、打喷嚏和抽鼻声，来自3,365个独特的个体。此外，该数据集还包含说话人年龄、性别、母语、国籍和健康状况等元信息。

The VocalSound dataset contains over 21,000 crowdsourced recordings of laughter, sighs, coughs, throat clearing, sneezes, and sniffs, sourced from 3,365 unique individuals. Additionally, this dataset includes metadata such as speakers' age, gender, native language, nationality, and health status.

创建时间：

2022-05-07

搜集汇总

数据集介绍

构建方式

在音频事件识别领域，构建高质量的人声非语音数据集对于提升模型性能至关重要。VocalSound数据集的构建采用了众包策略，通过亚马逊土耳其机器人平台收集了来自3,365名不同参与者的超过21,000条录音样本，涵盖了笑声、叹息、咳嗽、清嗓、喷嚏和吸气六类声音。数据收集过程中，通过设定音频长度、语音内容检测及预训练模型验证等多重质量控制标准，确保了样本的纯净性与标签的准确性。此外，数据集还记录了参与者的年龄、性别、母语、国籍及健康状况等元信息，为后续研究提供了丰富的背景维度。

特点

VocalSound数据集在音频识别领域展现出显著特点，其样本规模在同类数据集中居于领先地位，且实现了类别平衡，每类声音均包含3,504个样本。数据集的多样性体现在参与者覆盖60个国家、年龄跨度从18至80岁，并包含性别与语言分布的广泛性，这为模型泛化能力的研究提供了坚实基础。与现有通用音频数据集相比，VocalSound不仅样本数量更为丰富，还提供了精细的元数据，支持跨年龄、性别及健康状态的偏差分析，从而助力构建更公平、鲁棒的识别系统。

使用方法

该数据集适用于训练和评估人声非语音识别模型，尤其在提升模型对背景噪声中声音事件的检测能力方面具有重要价值。研究人员可将VocalSound与现有数据集（如FSD50K）结合使用，通过平衡采样策略缓解类别不平衡问题，并利用其提供的元数据进行细粒度性能分析。实验表明，加入VocalSound作为训练材料能使模型在真实声音评估集上的识别性能显著提升41.9%，验证了其在增强模型鲁棒性与准确性方面的实用意义。

背景与挑战

背景概述

在音频事件识别领域，人类非语音声音的识别一直是一个关键且具有广泛应用前景的研究方向，例如自动声音转录和健康状态监测。然而，现有数据集如AudioSet、FSD50K等虽规模庞大，但在人类声音样本方面存在数量不足或标签噪声问题，导致先进模型在识别笑声、咳嗽等声音时性能受限。为应对这一挑战，麻省理工学院计算机科学与人工智能实验室的研究团队于2022年推出了VocalSound数据集，该数据集通过众包方式收集了来自3,365名不同年龄、性别、语言背景的参与者的超过21,000条录音，涵盖六类常见非语音声音。VocalSound不仅样本量丰富、类别平衡，还提供了详细的说话人元信息，显著提升了模型在声音识别任务中的鲁棒性，为相关领域的研究提供了高质量的数据基础。

当前挑战

VocalSound数据集旨在解决人类非语音声音识别中的核心挑战，即现有通用音频数据集在声音样本稀缺和标签噪声影响下模型性能不佳的问题。具体而言，该领域面临声音类内多样性高、与环境背景音混淆以及跨人口统计学特征的泛化能力不足等难点。在数据集构建过程中，研究团队通过亚马逊众包平台收集数据时，需确保录音质量与标签准确性，这涉及设计严格的审核流程以排除包含语音或无关声音的样本，并利用预训练模型进行初步验证。此外，数据集的非自然发声特性可能限制其在真实场景中的应用，但实验表明通过混合训练策略可有效缓解这一局限，突显了数据增强与质量控制的重要性。

常用场景

经典使用场景

在音频事件识别领域，VocalSound数据集为人类非语音声音的精确分类提供了关键资源。该数据集通过收集超过21,000条包含笑声、叹息、咳嗽、清嗓、喷嚏和吸气等六类声音的录音，构建了一个类别平衡且标注可靠的大规模样本库。研究人员常利用该数据集训练深度学习模型，如基于EfficientNet的音频分类器，以提升模型在复杂背景音中识别特定人声的能力，实验表明其能将现有模型的识别性能提升41.9%。

实际应用

在实际场景中，VocalSound数据集支持构建智能健康监测与环境感知系统。例如，通过识别咳嗽与喷嚏的频率、强度特征，可评估办公或居家环境中的人群健康状态；集成至自动语音转录系统时，能同步记录非语音人声，提升对话记录的完整性。其丰富的元信息进一步助力个性化医疗应用，如结合咳嗽声音与说话者健康标签开发呼吸道疾病预警工具。

衍生相关工作

该数据集推动了多项衍生研究，包括基于元信息的模型公平性分析、跨语言人声识别优化，以及健康诊断模型的开发。例如，研究者利用其年龄与性别标签探究分类器在不同群体中的性能差异；结合COVID-19咳嗽数据集，拓展了声音在疾病筛查中的应用。此外，其匿名说话者标签为声纹重识别研究提供了新视角，促进了多任务学习框架的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集