VocalBench

github2025-05-30 更新2025-05-31 收录

下载链接：

https://github.com/SJTU-OmniAgent/VocalBench

下载链接

链接失效反馈

官方服务：

资源简介：

VocalBench是一个全面的评估基准，用于评估语音交互模型的语音通信能力。它包括语义、声学、聊天和鲁棒性四个维度，每个维度下有不同的能力和评估方法。

VocalBench serves as a comprehensive evaluation benchmark for assessing the voice communication capabilities of voice interaction models. It encompasses four dimensions: semantics, acoustics, conversation, and robustness, with various competencies and evaluation methods within each dimension.

创建时间：

2025-05-21

原始信息汇总

VocalBench 数据集概述

📌 数据集简介

VocalBench 是一个用于评估语音交互模型口语交流能力的综合性基准测试，由上海交通大学和蚂蚁集团联合开发。

📊 核心维度与能力

1. 语义维度 (Semantic)

知识能力 (Knowledge)
- 类别：13类
- 实例数：2000
- 数据源：LLaMA-Q, Web-Q, TriviaQA, SciQ
- 评估方法：基于规则的准确率 (Accuracy)
推理能力 (Reasoning)
- 类别：8类
- 实例数：1000
- 数据源：CommonsenseQA, gsm8k, STORAL, LLM-generated, self-made
- 评估方法：LLM评估 (Score)
创造能力 (Creativity)
- 类别：6类
- 实例数：400
- 数据源：Web, LLM-generated, self-made
- 评估方法：LLM评估 (Score)

2. 声学维度 (Acoustic)

流畅度 (Fluency)
- 评估指标：UTMOS
- 数据源：单轮对话集
清晰度 (Clarity)
- 评估指标：WER (词错误率)
- 数据源：单轮对话集

3. 对话维度 (Chat)

单轮对话 (Single-Round)
- 类别：2类
- 实例数：200
- 数据源：AlpacaEval, LLM-generated, self-made
- 评估方法：LLM评估 (Score)
多轮对话 (Multi-round)
- 类别：13类
- 实例数：400
- 数据源：mt-bench-101
- 评估方法：LLM评估 (Score)
指令跟随 (Instruction Following)
- 类别：16类
- 实例数：900
- 数据源：FollowBench, InfoBench等
- 评估方法：LLM评估 (跟随率)
情感感知 (Emotion Aware)
- 类别：5类
- 实例数：500
- 数据源：LLM-generated, self-made
- 评估方法：语义+声学评分
安全对齐 (Safety Alignment)
- 类别：1类
- 实例数：400
- 数据源：SafetyTraining (test)
- 评估方法：LLM评估 (拒绝率)
延迟 (Latency)
- 评估指标：RTF (实时因子)
- 数据源：单轮对话集

4. 鲁棒性维度 (Robustness)

噪声 (Noise)
- 类别：2类
- 实例数：1200
- 评估指标：LLM评估 (Score, 保持率)
混响 (Reverberation)
- 类别：1类
- 实例数：600
- 评估指标：LLM评估 (Score, 保持率)
远场 (Far-field)
- 类别：1类
- 实例数：800
- 评估指标：LLM评估 (Score, 保持率)
丢包 (Packet Loss)
- 类别：1类
- 实例数：500
- 评估指标：LLM评估 (Score, 保持率)
剪切失真 (Clipping Distortion)
- 类别：1类
- 实例数：500
- 评估指标：LLM评估 (Score, 保持率)

📂 数据总量

总实例数：9400

🛠️ 使用工具

语音识别：Whisper-large-v3
情感识别：emotion2vec_plus_large
声学质量评估：UTMOS
LLM评估：Qwen2.5-Max

📜 许可协议

Apache-2.0 许可证

📝 引用

bibtex @article{liu2025vocalbench, title={VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models}, author={Liu, Heyang and Wang, Yuhao and Cheng, Ziyang and Wu, Ronghua and Gu, Qunshan and Wang, Yanfeng and Wang, Yu}, journal={arXiv preprint arXiv:2505.15727}, year={2025} }

搜集汇总

数据集介绍

构建方式

VocalBench作为语音交互模型评估基准，采用多维度结构化构建方法。数据集整合了来自LLaMA-Q、TriviaQA等权威知识库的语义数据，结合CommonsenseQA等推理数据集，并融合自建创意语料，形成9400条标注样本。技术实现上采用模块化设计，通过Whisper ASR系统进行语音转写，结合UTMOS声学评估模型和Qwen2.5-Max大语言模型构建多级评估体系，在噪声、混响等六种干扰环境下验证模型鲁棒性。

使用方法

使用该数据集需分阶段实施：首先配置Whisper-large-v3和emotion2vec-plus-large等基础模型环境，下载HuggingFace或ModelScope平台的查询音频。通过标准化流程执行语音识别、Qwen2.5-Max语义评估及情感声学分析，最终运行评分脚本生成多维能力雷达图。评估过程支持模块化拆解，研究者可单独测试特定维度，或通过gen_score.sh脚本获取综合性能指标。数据集提供leaderboard机制，便于横向比较不同模型在12项指标上的表现。

背景与挑战

背景概述

VocalBench是由上海交通大学与蚂蚁集团联合开发的语音交互模型评估基准，旨在全面评估语音交互模型的对话能力。该数据集于2025年发布，核心研究问题聚焦于语音交互模型在语义理解、声学表现、对话流畅度及环境鲁棒性等多维度的综合性能评估。通过整合知识问答、逻辑推理、创造性表达等语义任务，以及声学质量、多轮对话、指令跟随等功能测试，VocalBench为语音交互领域提供了标准化评估框架，推动了语音大模型技术的发展与应用。

当前挑战

VocalBench面临的挑战主要体现在两个方面：领域问题方面，语音交互模型需同时兼顾语义准确性与声学自然度，且在复杂声学环境下保持稳定性，这对模型的跨模态融合与抗干扰能力提出极高要求；构建过程方面，数据采集需覆盖多样化场景与口音，标注工作涉及跨模态对齐，评估指标设计需平衡主观体验与客观量化，这些因素均增加了数据集构建的复杂度。此外，实时性要求与计算资源限制也为基准测试的实施带来挑战。

常用场景

经典使用场景

VocalBench作为语音交互模型评估的标杆数据集，在语音合成与自然语言处理交叉领域具有重要地位。该数据集通过9400个标注实例，系统评估模型在语义理解、声学表现、对话流畅度和环境鲁棒性等维度的综合能力，尤其适用于多轮对话系统和实时语音助手的开发测试。其精心设计的知识问答、推理挑战和创意表达等任务，为研究者提供了全面衡量模型认知能力的标准化平台。

解决学术问题

该数据集有效解决了语音交互领域缺乏统一评估框架的难题。通过构建包含13类知识问答、8种推理任务和6项创意测试的语义评估体系，以及针对噪声、混响、远场等复杂声学场景的鲁棒性测试，填补了传统评估仅关注单维度性能的缺陷。其创新的实时因子(RTF)计算和多轮对话评分机制，为衡量模型实用化水平提供了量化标准，推动了端到端语音交互系统的研究进程。

实际应用

在智能客服、车载语音系统等实际场景中，VocalBench的评估指标直接对应着用户体验的关键要素。其声学维度下的UTMOS自然度评分和WER清晰度指标，可优化语音合成的听觉舒适度；情感感知测试能提升对话系统的共情能力；而400个安全对齐案例的拒绝率评估，则确保了交互系统的伦理合规性。这些特性使其成为工业界产品迭代的重要参考依据。

数据集最近研究