WildASR

github2026-04-14 更新2026-03-28 收录

下载链接：

https://github.com/boson-ai/WildASR-public

下载链接

链接失效反馈

官方服务：

资源简介：

WildASR是一个多语言（四种语言）诊断基准，用于在真实世界分布外（OOD）条件下系统、隔离地评估ASR的鲁棒性。所有源音频来自真实人类语音而非TTS生成数据。为了系统地隔离故障模式，我们将鲁棒性分解为三个维度：环境退化（where）、人口统计变化（who）和语言多样性（what）。我们观察到在部分/退化输入下存在大量、不均匀的鲁棒性失败和频繁的幻觉（未说出的）内容，对下游语音代理构成安全风险。

WildASR is a multilingual diagnostic benchmark dataset spanning four languages, designed to evaluate the robustness of Automatic Speech Recognition (ASR) under real-world out-of-distribution (OOD) conditions in a systematic and isolated manner. All source audio originates from real human speech, rather than data generated by Text-to-Speech (TTS) systems. To systematically isolate failure modes, we decompose robustness into three dimensions: environmental degradation (where), demographic variation (who), and linguistic diversity (what). We observe numerous and uneven robustness failures as well as frequent hallucinated (unspoken) content for partial or degraded inputs, which poses security risks to downstream speech agents.

创建时间：

2026-03-26

原始信息汇总

WildASR 数据集概述

数据集简介

WildASR 是一个多语言（四种语言）的诊断性基准测试，旨在系统性地、通过因素隔离的方式评估自动语音识别（ASR）在真实世界分布外（OOD）条件下的鲁棒性。所有源音频均来自真实的人类语音，而非由TTS生成。为了系统地隔离故障模式，该基准将鲁棒性分解为三个维度：环境退化（何处）、人口统计偏移（何人）和语言多样性（内容）。研究观察到在部分/退化输入下存在巨大且不均衡的鲁棒性失败，以及频繁出现的幻觉（未说出）内容，这对下游语音代理构成了安全风险。

核心特性

数据来源：真实人类语音。
语言支持：四种语言。
评估维度：
- 环境退化：混响、远场、电话编解码器、噪声间隙、削波。
- 人口统计偏移：儿童、老年人、带口音的语音。
- 语言多样性：短话语、不完整音频、语码转换。

数据获取与格式

数据集地址：https://huggingface.co/datasets/bosonai/WildASR
加载方式： python from datasets import load_dataset ds = load_dataset("bosonai/WildASR")
数据格式：使用与 HuggingFace 兼容的 Parquet 文件。

数据模式：

列名	类型	描述
`audio`	`Audio` (sampling_rate=16000)	WAV 音频字节
`transcript`	`string`	真实转录文本
`audio_hash_id`	`string`	唯一样本标识符
`duration`	`float`	音频时长（秒）
`gender`	`string`	说话者性别
`speaker_id`	`string`	说话者标识符
`category`	`string`	`environment_degradation` / `demographic_shift` / `linguistic_diversity`
`subset`	`string`	具体测试条件（如 `fleurs_noise_gap`）
`language`	`string`	语言代码（如 `en`, `zh`, `ja`, `ko`）

评估框架

支持模型：涵盖本地部署与云端API模型，包括 Whisper、Qwen2-audio、Parakeet、GPT-4o Transcribe、Gemini、Deepgram、ElevenLabs Scribe、Qwen3-ASR-Flash 等。
评估流程：提供 Python 脚本和 Docker 容器两种方式进行评估。
输出结果：
- 每样本预测文件 (*_results.jsonl)：包含状态、唯一ID、真实文本、模型预测等。
- 聚合指标文件 (*_metrics.json)：包含整体评估指标。
核心指标：
- WER（词错误率）：提供 qwen、cv17、seed_tts 三种归一化方法。
- HER（幻觉错误率）：使用 LLM 法官（默认 GPT-4o-mini）将预测分类为“幻觉错误”、“非幻觉错误”或“无错误”。

项目引用

bibtex @misc{wildasr2026, title = {Back to Basics: Revisiting ASR in the Age of Voice Agents}, author = {Geeyang Tay and Wentao Ma and Jaewon Lee and Yuzhi Tang and Daniel Lee and Weisu Yin and Dongming Shen and Yi Zhu and Mu Li and Alex Smola}, year = {2026}, note = {arXiv:TODO} }

许可协议

本项目采用 Apache License 2.0 许可。

搜集汇总

数据集介绍

构建方式

在自动语音识别（ASR）领域，评估模型在真实世界中的鲁棒性至关重要。WildASR数据集通过精心设计的构建方法，系统性地采集了多语言环境下的真实人类语音数据。该数据集摒弃了合成语音，完全采用自然语音作为源音频，确保了数据的真实性与代表性。构建过程中，研究人员将鲁棒性分解为三个独立维度：环境退化、人口统计偏移和语言多样性，每个维度下细分为具体测试条件，如混响、远场、儿童语音、口音变化及短语音频等。数据以标准化格式存储，包含音频、转录文本及元信息，便于后续分析与评估。

特点

WildASR数据集展现出鲜明的特点，其核心在于对ASR系统鲁棒性的多维度诊断能力。数据集覆盖英语、中文、日语和韩语四种语言，提供了广泛的语言代表性。通过环境退化、人口统计偏移和语言多样性三个轴线的系统隔离，能够精准定位模型在不同真实场景下的失败模式。尤为突出的是，数据集揭示了在部分或退化输入条件下，ASR系统常产生未说话内容的幻觉现象，这对下游语音代理的安全性构成潜在风险。数据格式兼容HuggingFace平台，支持灵活加载与高效处理。

使用方法

使用WildASR数据集进行ASR评估，需遵循清晰的步骤。首先通过HuggingFace的datasets库直接加载数据集，或下载parquet文件本地处理。评估框架支持多种ASR模型，包括本地部署的Whisper、Parakeet等，以及基于API的GPT-4o、Gemini等云端服务。运行评估时，需配置相应的环境变量与模型参数，调用内置的评估函数即可自动计算词错误率（WER）和幻觉错误率（HER）。输出结果包含逐样本预测与聚合指标，便于深入分析模型在不同条件下的性能表现。

背景与挑战

背景概述

在语音智能体蓬勃发展的时代，自动语音识别（ASR）系统的实际部署面临着严峻的鲁棒性考验。WildASR数据集应运而生，由Boson AI等机构的研究团队于2026年构建，旨在系统性地诊断ASR模型在真实世界分布外（OOD）条件下的性能。该数据集摒弃了合成语音，完全采用真实人类语音，并创新性地将鲁棒性分解为环境退化、人口统计偏移和语言多样性三个正交维度进行孤立评估。其核心研究问题在于揭示当前先进ASR系统在从受控实验室环境迁移至复杂现实场景时，所暴露出的性能急剧且不均衡下降的普遍现象，特别是针对部分或退化输入产生幻觉内容的安全风险，为下一代可靠语音代理的发展奠定了关键的评估基准。

当前挑战

WildASR所针对的领域挑战，在于解决ASR系统在真实开放环境下的鲁棒性评估难题。传统基准多在洁净、标准的室内数据上达到人类水平，但无法可靠反映模型在复杂声学环境、多样化说话人及丰富语言现象中的实际表现。具体而言，挑战体现在系统抵御环境噪声与混响、适应不同年龄与口音、以及处理短语音、不完整音频或语码转换等复杂语言模式的能力缺失。在构建过程中，挑战则源于如何系统性地收集与标注覆盖多维度退化条件的真实语音，并确保评估框架能严格隔离各失效模式，以精准定位ASR系统的脆弱环节，同时处理多语言数据带来的标注一致性与质量控制问题。

常用场景

经典使用场景

在自动语音识别技术迈向实际部署的关键阶段，WildASR数据集为评估模型在真实世界分布偏移下的鲁棒性提供了标准化测试平台。其经典使用场景集中于对主流ASR系统进行系统性诊断，通过精心设计的三个维度——环境退化、人口统计偏移和语言多样性，全面检验模型在嘈杂环境、不同年龄与口音说话人、以及短语句或语码转换等复杂情境下的识别性能。研究者通常利用该数据集生成误差热图与性能对比报告，直观揭示各模型在特定失效模式下的脆弱环节。

实际应用

在实际应用层面，WildASR的评估框架已被广泛应用于智能语音助手、实时转录服务和多语言客服系统的质量保障环节。科技企业利用其多维测试套件，在产品上线前系统性检测语音接口在车载噪声、老年用户发音、跨语言混合对话等边缘场景下的可靠性。该数据集揭示的幻觉错误问题，直接推动了语音交互安全协议的完善，促使开发者为高风险应用场景（如医疗问诊、金融交易）增设内容验证机制。其多语言特性也助力全球化产品实现更均衡的语音服务覆盖。

衍生相关工作

基于WildASR的基准发现，学术界衍生出系列改进ASR鲁棒性的创新研究。部分工作聚焦于对抗性训练框架的优化，通过模拟数据集中的环境退化模式增强模型泛化能力。另有研究受其幻觉错误启发，开发了基于注意力机制或后处理语言模型的幻觉检测模块。在架构设计方面，出现了专门针对人口统计偏移的动态适配网络，以及处理语码转换的混合语言建模方案。这些工作共同推动了语音识别从实验室精度向现实可用性的范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集