WildSpeech-Bench
收藏arXiv2025-06-27 更新2025-07-01 收录
下载链接:
https://huggingface.co/datasets/tencent/WildSpeech-Bench
下载链接
链接失效反馈官方服务:
资源简介:
WildSpeech-Bench是一个专门为端到端语音LLMs评价而设计的整体基准。数据集由真实世界的聊天数据构成,涵盖了多种说话人属性和声学条件,并加入了语音特有的现象。此外,该数据集还通过语音特有的挑战来模拟现实声学环境,包括各种类型的噪声和多样化的说话人属性。为了提高评价的准确性,我们设计了定制化的清单和评估提示,以便更细致地评估各种语音场景下的模型性能。我们的基准有望为语音LLMs的未来发展和优化提供新的见解。
WildSpeech-Bench is a comprehensive benchmark specifically designed for the evaluation of end-to-end speech large language models (LLMs). The dataset is constructed from real-world conversational data, covering diverse speaker attributes and acoustic conditions, and incorporates speech-specific phenomena. Furthermore, the dataset simulates realistic acoustic environments via speech-specific challenges, including various types of noise and diverse speaker characteristics. To improve the accuracy of model evaluation, we have designed customized checklists and evaluation prompts to enable more fine-grained assessment of model performance across various speech scenarios. This benchmark is expected to provide new insights for the future development and optimization of speech LLMs.
提供机构:
腾讯公司微信人工智能团队模式识别中心
创建时间:
2025-06-27
原始信息汇总
WildSpeech-Bench 数据集概述
数据集简介
WildSpeech-Bench 是首个用于评估音频到音频语音对话模型能力的端到端系统性基准测试数据集。该数据集具有以下三个关键特点:
-
真实且多样化的数据收集
- 收集与语音场景相关的真实世界聊天查询
- 合成具有年龄、性别、音色和说话者距离等受控变化的语音数据
- 确保数据的多样性、复杂性和广泛覆盖
-
音频特定挑战模拟
- 引入语音特定的挑战,包括由停顿或情绪引起的语义模糊查询
- 包含近音词的句子和口吃的语音
- 加入不同类型的背景噪声以评估模型在现实条件下的鲁棒性
-
细粒度性能评估
- 设计针对特定查询的定制检查表和评估提示
- 提供细粒度和场景特定的评估标准
- 更好地反映人类在语音对话中的需求和偏好
主要评估结果
评估结果包括文本创作(TC)、信息查询(II)、解决方案请求(SR)、意见交换(OE)和副语言特征查询(PF)五个方面。
| 模型 | TC | II | SR | OE | PF | 平均分 |
|---|---|---|---|---|---|---|
| Naive Pipeline | 5.55 | 4.98 | 5.51 | 5.18 | 4.84 | 5.24 |
| GLM-4-Voice | 5.16 | 4.77 | 5.41 | 5.04 | 4.51 | 5.03 |
| MiniCPM | 5.17 | 4.89 | 5.28 | 5.31 | 4.78 | 5.08 |
| Qwen-2.5-omni | 5.98 | 5.84 | 6.66 | 6.16 | 4.46 | 6.01 |
| GPT-4o-Audio | 6.74 | 6.06 | 6.39 | 6.32 | 6.01 | 6.29 |
许可证
详细信息请参见 License.txt 文件。
搜集汇总
数据集介绍

构建方式
WildSpeech-Bench数据集的构建过程体现了对真实语音交互场景的深度模拟。研究团队首先从WildChat语料库中筛选出34,736条真实用户与ChatGPT的单轮英文对话,通过双模型联合评估机制(LLaMA3.3和Qwen2.5-72B)对查询语句的常见度和难度进行5级/10级量化评分,保留难度≥5且常见度≥3的6,110条查询。经过人工审核冗余度和场景适用性后,最终形成1,100条覆盖信息查询(II)、解决方案请求(SR)、观点交流(OE)、文本创作(TC)和副语言特征(PF)五大类别的语料。在语音合成阶段,采用CosyVoice音色克隆技术,采集涵盖不同年龄、性别的16种原生音色样本,并引入LibriTTS和ESC-50数据集的两类噪声(多人语音背景噪声与非语音环境噪声)进行数据增强,特别对包含停顿、重音、语调、口吃和近音词等副语言特征的100条查询采用真人录音方式构建。
特点
该数据集的核心特征体现在三个维度:场景真实性方面,通过真实聊天语料筛选和噪声增强技术,构建了包含39.3%信息查询、35.1%解决方案请求等五类意图的均衡分布;语音复杂性方面,创新性地引入副语言特征查询(占9.1%),系统考察模型对停顿歧义(如"He gave, her cat, food"与"He gave her, cat food")、语调语义(如道歉与疑惑的"I'm sorry")、口吃表达等特殊语音现象的理解能力;评估科学性方面,设计查询感知的评估机制,针对开放性问题制定定制化检查表,并采用Whisper-large-v3三轮ASR转录与GPT-4o mini联合评分策略,其自动评估结果与人工评分的Pearson相关系数达0.86(R²=0.67),显著优于VoiceBench基准的0.79(R²=0.20)。
使用方法
使用该数据集需遵循端到端语音LLM评估协议:输入阶段将1,100条语音查询(含噪声增强样本)输入待测模型,采集其语音输出响应;评估阶段首先通过Whisper-large-v3进行三次独立ASR转录以减少转写误差,随后采用GPT-4o mini根据查询类型激活对应的评估检查表(如PF类查询需额外检测副语言特征理解度),在1-10分尺度上对响应内容的准确性、完整性和语音适宜性进行评分,最终取三次转录得分的均值作为模型性能指标。对于语音质量评估,可同步采用UTMOS系统量化生成语音的声学特征。该框架支持对模型在清洁语音、噪声环境及特殊语音现象等多维场景下的性能进行细粒度分析,实验表明现有最佳模型GPT-4o-Audio在副语言特征理解任务中仍存在33.2%的性能缺口(得分4.95/10),揭示了语音LLMs亟待改进的方向。
背景与挑战
背景概述
WildSpeech-Bench是由腾讯微信AI模式识别中心的研究团队于2025年推出的创新性语音大语言模型评估基准。该数据集针对当前多模态大模型在语音交互场景中的评估空白,系统性地构建了包含自然对话、副语言特征(如停顿、重音、语调)及复杂声学环境的测试集。研究团队从真实用户与ChatGPT的百万级交互记录中筛选出具有代表性的语音场景查询,通过声纹克隆技术合成多样化说话人音频,并创新性地引入人声与非人声噪声模拟真实环境。作为首个全面评估端到端语音大模型在自然对话中表现的开源基准,其通过查询感知的评估方法为语音AI的发展提供了重要参考框架。
当前挑战
该数据集主要面临三重核心挑战:在领域问题层面,语音交互特有的副语言特征(如语调变化导致的语义差异)和复杂声学条件(多人对话背景噪声)对模型理解能力提出严峻考验;在构建过程中,真实语音场景的模拟需要平衡声学多样性(年龄/性别/音色)与评估效度,而人工录制副语言特征样本存在成本与质量控制难题;在评估维度上,传统文本导向的评估标准难以捕捉语音交互中信息获取效率、语音自然度等关键指标,需开发兼顾自动评估效率与人类听觉感知的新型评价体系。
常用场景
经典使用场景
WildSpeech-Bench作为专为端到端语音大语言模型设计的评测基准,其经典使用场景聚焦于模拟真实语音对话环境下的多维度评估。在语音交互技术研究中,该数据集通过系统化构建包含自然停顿、语调变化、口吃等副语言特征的语音样本,并引入多样化背景噪声和说话人属性(年龄、性别、音色),为评估模型在复杂声学环境中的鲁棒性提供了标准化测试平台。尤其在比较GPT-4o、GLM-4-Voice等前沿模型时,其细粒度的分类评估(信息查询、解决方案请求等)能清晰揭示各模型在特定场景下的性能差异。
解决学术问题
该数据集有效解决了语音LLM领域三个核心学术问题:其一,突破传统文本基准直接移植的局限性,针对语音特有的韵律、同音词歧义等挑战设计评估维度;其二,通过声学条件增强和副语言特征注入,填补了现有评测对真实环境噪声和说话人多样性考虑的空白;其三,创新的查询感知评估方法(Query-Aware Evaluation)结合多轮ASR转录校验,显著提升了自动评估与人工评判的一致性(Pearson r=0.86)。这些突破为语音模型的性能量化提供了更科学的测量框架。
衍生相关工作
该数据集已催生多项语音LLM的改进研究:其噪声增强策略被Mini-OMNI2模型借鉴以提升环境适应性;评估框架启发了OpenAudio Bench采用GPT赋能的语义评分机制;而发现的语音-文本输出差异现象,直接推动如Freeze-OMNI等模型采用联合模态训练。论文中揭示的副语言特征处理短板(如停顿歧义句识别准确率仅5.15%)更成为后续SpeechGPT等模型重点攻关方向。
以上内容由遇见数据集搜集并总结生成



