Voices-in-the-Wild-Bench

github2026-05-18 更新2026-05-21 收录

下载链接：

https://github.com/xzf-thu/Voices-in-the-Wild-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

Voices-in-the-Wild-Bench是一个用于评估语音和语音助手系统在真实声学条件下鲁棒性的双语基准数据集，包含噪声、远场语音、遮挡、录音伪影、回声、丢包和混合扰动等条件。该数据集包含5,000个音频样本，涵盖合成语音和真实录音语音，中英文各占一半。

Voices-in-the-Wild-Bench is a bilingual benchmark dataset designed to evaluate the robustness of speech and voice assistant systems under realistic acoustic conditions. It covers a range of perturbation scenarios including noise, far-field speech, occlusion, recording artifacts, echo, packet loss, and mixed disturbances. This dataset comprises 5,000 audio samples spanning both synthetic speech and real recorded speech, with an even split between Chinese and English content.

创建时间：

2026-05-18

原始信息汇总

Voices-in-the-Wild-Bench 数据集概述

基本信息

任务类型：鲁棒语音识别（robust ASR）
语言：中文（普通话）和英文，各 2,500 条
样本总数：5,000 条音频
许可证：MIT
发布时间：2026 年发布

数据集构成

分组	样本数	说明
合成语音	3,500	受控扰动生成的语音样本
真实录制语音	1,500	来自 16 位说话人的真实录制语音

声学类别

类别	样本数	说明
噪声（noise）	500	背景噪声和加性声学干扰
远场（far_field）	500	远距离麦克风和混响采集条件
遮挡（obstructed）	500	物理或频谱遮挡影响的语音
失真（distortion）	500	削波、非线性失真和信号退化
录制伪影（recording）	500	录音染色、通道效应及相关伪影
回声（echo）	500	强回声和混响语音
丢帧（dropout）	500	缺失、重复或不连续的语音片段
混合（mixed）	1,500	多种声学条件的组合

数据格式

每条记录为 JSONL 格式，关键字段包括：

audio_path：音频文件路径
question：输入系统的指令文本
answer：参考转录文本或答案
subset：子集标签（编码来源类型、语言和声学条件）
prediction：模型输出结果（可选）

评估指标

中文样本：字符错误率（CER）
英文样本：词错误率（WER）

支持的模型（模型包装器）

CLI 名称	后端	默认检查点
whisper-large-v3	Transformers pipeline	openai/whisper-large-v3
canary-1b-v2	NVIDIA NeMo	nvidia/canary-1b-v2
parakeet-tdt-0.6b-v3	NVIDIA NeMo	nvidia/parakeet-tdt-0.6b-v3
qwen3-asr-1.7b	Qwen ASR runtime	Qwen/Qwen3-ASR-1.7B
kimi-audio	Kimi-Audio runtime	需指定 --model-path
step-audio-2-mini	Step-Audio2 runtime	需指定 --model-path
mega-asr	Qwen ASR runtime	需指定 --model-path /path/to/Mega-ASR

排行榜

排行榜托管在 GitHub Pages，展示各模型在不同声学场景下的错误率（越低越好），涵盖真实录制和合成语音两种来源，涉及噪声、远场、遮挡、回声、录制伪影、失真、丢帧和混合共 8 类条件。

提交方式

通过 GitHub Issue 提交结果，需包含：

模型名称和版本
评估日期
解码或推理设置
总体得分和各类别得分
预测文件或可复现评估日志的链接

引用

如需引用，请使用提供的 BibTeX 格式。

搜集汇总

数据集介绍

构建方式

在真实世界的语音交互场景中，声学环境的复杂性对语音理解系统构成了严峻挑战。为实现对这一能力的客观评估，Voices-in-the-Wild-Bench数据集应运而生。该数据集共包含5,000条音频样本，精心构建了双语（中文与英文各2,500条）且覆盖合成语音与真实录音的双重维度。其中3,500条为通过可控扰动生成的合成语音，1,500条则来自16名不同说话人的真实录制。数据集围绕七种单一声学条件（噪声、远场、遮挡、失真、录音伪影、回声、丢帧）及混合扰动类别进行组织，每个单一条件包含500条样本，混合类别则包含1,500条样本，形成了对现实声学挑战的系统性覆盖。

特点

该基准评测的核心特色在于其对真实世界声学退化的全面模拟与结构化分类。不同于仅关注干净语音的传统评测集，Voices-in-the-Wild-Bench首次将噪声、远场、遮挡、电子失真、录音染色、回声干扰及传输丢帧等七类独立扰动与混合扰动纳入统一评测框架。每条样本均包含音频路径、指令文本、标准转录答案及描述声学条件的元数据，并设计了简洁的subset标签以编码源类型、语言与声学类别。此外，数据集额外提供了8条轻量级示例音频，便于研究者在下载完整数据集前进行加载与格式验证，显著降低了使用门槛。

使用方法

使用该数据集进行评测的流程十分直观且高度可复现。研究者首先通过Hugging Face Datasets库一键加载评测集，随后利用仓库提供的轻量级模型封装器（如Whisper-Large-v3、Qwen3-ASR、Mega-ASR等）运行推理，生成包含模型预测结果的JSONL文件。最终通过调用评估脚本计算中文样本的字错率与英文样本的词错率，系统将自动报告整体错误率以及按语言、声学类别和真实/合成来源细分的性能指标，确保评测结果的透明与可比性。

背景与挑战

背景概述

Voices-in-the-Wild-Bench是由清华大学研究团队于2026年创建的双语鲁棒语音理解基准，旨在弥合实验室环境下语音识别系统与实际应用场景之间的性能鸿沟。该基准包含5,000个精心设计的音频样本，覆盖中文与英文两种语言，并兼顾合成语音与真实录音。其核心研究问题聚焦于评估语音识别系统在面对噪声、远场、遮挡、失真、录制伪影、回声、丢帧及多种混合扰动等复杂声学条件下的表现。作为首个系统性地将多种现实声学退化因素整合于统一评估框架的基准，Voices-in-the-Wild-Bench对语音交互领域产生了显著影响，为提升语音助手与自动语音识别系统在野外的鲁棒性提供了标准化、可重复的评测平台，有力地推动了该领域的发展。

当前挑战

该基准面临的挑战首先源自领域核心问题：现实语音交互场景中声学环境的复杂性与不可预知性。传统纯净语音数据集训练出的模型，在面对背景噪声、远场拾音、信号阻塞、非线性失真、信道效应、回声干扰、数据丢帧等单一或混合退化时，其识别性能会急剧下降，成为制约语音助手、智能家居、车载系统等应用落地的关键瓶颈。其次，基准构建过程亦充满挑战：如何设计并生成逼真且可控制的扰动样本，使其既能反映真实世界声学退化特征，又能保证评估的标准化与公平性；同时，需要平衡合成语音与真实录音的比例，确保在数据规模有限（5,000条）的前提下，每一类声学条件都有足够的样本量以支持统计显著的性能对比，并维系双语之间的均衡性。

常用场景

经典使用场景

Voices-in-the-Wild-Bench作为一项中英文双语基准评测，广泛应用于评估语音识别与语音交互系统在真实世界复杂声学环境下的鲁棒性。其核心设计围绕八类典型声学失真条件展开，包括背景噪声、远场拾音、物理遮挡、非线性畸变、录制伪影、回声干扰、语音丢断以及复合扰动，覆盖3,500条合成语音与1,500条真实录音样本。研究人员通过该基准系统性地评测模型在跨语言、跨场景下的转录精度，以字符错误率或词错误率为核心指标，从而揭示不同语音处理技术在噪声鲁棒性、远场泛化能力及信道适配性等方面的差异，为推动实用化语音技术提供了标准化的评测平台。

实际应用

在实际应用层面，Voices-in-the-Wild-Bench直接服务于智能语音助手、车载语音控制、远程会议转写及呼叫中心质检等产品的性能评估与优化。借助该基准，开发者能够在涵盖嘈杂街道、远距离拾取、信号中断等典型用户场景下，客观比较不同商用与开源语音模型的表现。例如，智能音箱厂商可利用混响与回声类样本评估唤醒词后转写效果，会议系统则可利用丢断和畸变样本测试连续多说话人场景的语音恢复能力。此外，该数据集还提供了便捷的模型推理封装与评测脚本，降低了企业进行鲁棒性测试的技术门槛，推动了语音技术从实验室环境向真实世界应用的高效转化。

衍生相关工作

基于Voices-in-the-Wild-Bench，学术与工业界已衍生出一系列高质量工作。在模型层面，研究者提出了诸如Mega-ASR与其带路由版本的鲁棒语音识别模型，通过针对不同声学类别设计分层适配策略，在远场、失真和丢断等子集上取得了显著更优的字符/词错误率。在方法层面，该基准催生了多条件数据增强、声学扰动解耦训练以及噪声鲁棒前端模块等原创性算法。此外，该基准的开放排行榜和提交流程鼓励了社区持续贡献，多家知名机构如OpenAI、NVIDIA、阿里巴巴等均已采用其评测体系来比较自家的Whisper、Parakeet或Qwen系列模型，形成了以鲁棒语音理解为共性目标的活跃研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集