Annotated in-the-wild (AITW) Dataset

Name: Annotated in-the-wild (AITW) Dataset
Creator: 康奈克斯人工智能公司, United Kingdom
Published: 2025-07-29 17:58:45
License: 暂无描述

arXiv2025-07-29 更新2025-07-31 收录

下载链接：

https://doi.org/10.5281/zenodo.15534662

下载链接

链接失效反馈

官方服务：

资源简介：

AITW数据集是一个包含18,346个样本的英语语音数据集，用于训练Whilter模型。该数据集包含多个说话人的音频、非英语语音、背景音乐、噪声语音和合成语音等样本。这些样本被用于训练Whilter模型，该模型可以同时解决五个分类问题。数据集的创建过程包括对Emilia和YODAS数据集的子集进行手动标注。该数据集旨在帮助解决语音识别和语音合成等任务中存在的不良特征问题。

The AITW dataset is an English speech dataset containing 18,346 samples, specifically designed for training the Whilter model. It encompasses samples from multiple speakers, including non-English speech, background music, noisy speech and synthesized speech. The Whilter model trained on these samples is capable of handling five classification tasks simultaneously. The creation of the AITW dataset involved manual annotation of subsets from the Emilia and YODAS datasets. This dataset aims to help resolve the issues of undesirable features in tasks such as speech recognition and speech synthesis.

提供机构：

康奈克斯人工智能公司, United Kingdom

创建时间：

2025-07-29

搜集汇总

数据集介绍

构建方式

Annotated in-the-wild (AITW) Dataset的构建过程体现了对非受控环境下语音数据的系统性标注。研究团队从Emilia和YODAS两个主流开放语音数据集中随机抽取样本，由专业语音标注员通过定制化的Label Studio界面进行多维度标注。采用双人独立标注机制确保数据质量，标注维度涵盖多说话人检测（通过说话人数统计转换为布尔值）、非目标语言识别、背景音乐检测、噪声语音判定及合成语音鉴别五大关键特征。最终形成包含21,414个样本（约64小时）的标注集，并按55:4:5的比例划分为训练、验证和测试子集。

特点

该数据集的核心价值在于其针对真实场景语音处理的五大挑战性任务提供了精细标注。数据分布呈现显著的不平衡特性，其中合成语音标签最为稀疏（仅占0.5%），反映了现实数据中此类样本的稀缺性。值得注意的是，多说话人片段占比达35.7%，背景音乐出现频率为21.3%，非英语语音占18.9%，这些特性为研究语音与干扰因素的复杂交互提供了理想实验平台。所有样本均保留原始说话人数统计信息，为细粒度分析预留了空间。

使用方法

AITW数据集主要服务于多任务语音过滤模型的训练与评估。研究者可采用两阶段训练策略：先在人工混合的非野外数据上进行预训练，再利用本数据集进行微调。数据加载时建议采用加权随机采样以缓解类别不平衡问题。对于合成语音检测等稀疏标签任务，可采用bootstrap方法扩展正样本。该数据集特别适合评估模型在五项关联任务上的综合性能，其标注格式兼容主流深度学习框架，且提供标准化评估指标（FPR/FNR/EER等）。

背景与挑战

背景概述

Annotated in-the-wild (AITW) Dataset是由ConnexAI的研究团队于2025年提出的一个专注于野外语音数据标注的数据集。该数据集旨在解决语音处理领域中野外语音数据存在的多说话人、非目标语言、背景音乐和噪声等干扰问题。AITW数据集基于Emilia和YODAS两个流行的野外语音数据集构建，包含21,414个手动标注的样本，覆盖了约64小时的语音数据。该数据集的推出为语音合成（TTS）和自动语音识别（ASR）等任务提供了高质量的训练数据，推动了语音处理领域的发展。

当前挑战

AITW数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，数据集需解决多说话人检测、非目标语言识别、背景音乐和噪声过滤等复杂任务，这些任务在野外语音数据中尤为突出。构建过程中，数据标注的准确性和一致性是一大挑战，尤其是合成语音标签的稀疏性和多样性不足，可能影响模型的泛化能力。此外，动态混合和数据增强技术的应用虽然提升了模型的鲁棒性，但也增加了数据处理的复杂性。

常用场景

经典使用场景

在语音处理领域，Annotated in-the-wild (AITW) Dataset 主要用于训练和评估多任务分类模型，特别是在处理非受控环境下的语音数据时。该数据集通过标注多说话人、非目标语言、背景音乐、噪声和合成语音等特征，为研究者提供了一个标准化的基准，用于验证模型在复杂声学环境中的鲁棒性。其经典使用场景包括语音识别、语音合成以及语音增强系统的开发，尤其是在需要从混杂的语音数据中提取纯净语音信号时。

解决学术问题

AITW 数据集解决了语音处理领域中的多个关键学术问题，尤其是在非受控环境下语音数据的分类和过滤方面。通过提供多任务标注，该数据集帮助研究者克服了传统单任务模型在处理复杂声学场景时的局限性。例如，它显著提升了模型在识别多说话人、区分目标语言与非目标语言以及检测合成语音等方面的性能。此外，AITW 还为语音质量评估和噪声抑制研究提供了重要数据支持，推动了语音处理技术的进步。

衍生相关工作

AITW 数据集衍生了许多经典研究工作，特别是在多任务语音分类和语音过滤领域。例如，基于该数据集开发的 Whilter 模型展示了在多任务分类中的优越性能，成为后续研究的基准。此外，AITW 还启发了对语音基础模型（如 Whisper 和 BEATs）的进一步优化，推动了语音处理技术的发展。相关研究还包括语音反欺骗检测、多语言语音识别以及噪声环境下的语音增强等方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集