VocalBench

Name: VocalBench
Creator: 上海交通大学, 蚂蚁集团, 武汉大学
Published: 2025-05-22 00:34:07
License: 暂无描述

arXiv2025-05-22 更新2025-05-24 收录

下载链接：

https://github.com/SJTU-OmniAgent/VocalBench

下载链接

链接失效反馈

官方服务：

资源简介：

VocalBench是一个全面的多维度基准，旨在评估语音交互模型的语音对话能力。它包含9400个精心策划的实例，涵盖语义质量、声学性能、对话能力和鲁棒性四个关键维度，覆盖了16个对有效语音交互至关重要的基本技能。该数据集的独特之处在于它包含了针对语音的特定对话场景，如情绪化的对话和基于说话风格和属性的响应，从而更真实地反映了现实世界的语音通信需求。VocalBench的创建过程严格，确保了数据集的质量和多样性，为未来语音交互系统的研究和发展提供了宝贵的指导。

VocalBench is a comprehensive multi-dimensional benchmark designed to evaluate the spoken dialogue capabilities of speech interaction models. It contains 9400 carefully curated instances, covering four core dimensions: semantic quality, acoustic performance, dialogue capability, and robustness, and encompassing 16 fundamental skills critical for effective speech interaction. What sets this dataset apart is its inclusion of targeted spoken dialogue scenarios, such as emotional conversations and responses conditioned on speaking styles and attributes, which more authentically reflect the practical requirements of real-world speech communication. VocalBench was developed through a rigorous process that ensures the dataset's quality and diversity, providing valuable guidance for the research and advancement of future speech interaction systems.

提供机构：

上海交通大学, 蚂蚁集团, 武汉大学

创建时间：

2025-05-22

原始信息汇总

VocalBench 数据集概述

📌 数据集简介

VocalBench 是一个用于评估语音交互模型口语交流能力的综合基准测试工具，由上海交通大学和蚂蚁集团联合开发。

📊 核心评估维度

1. 语义能力

知识：13个类别，2000个实例，数据来源包括LLaMA-Q、Web-Q等
推理：8个类别，1000个实例，数据来源包括CommonsenseQA、gsm8k等
创造力：6个类别，400个实例，数据来源包括Web和LLM生成

2. 声学能力

流畅度：使用UTMOS评估
清晰度：使用WER(词错误率)评估

3. 对话能力

单轮对话：2个类别，200个实例
多轮对话：13个类别，400个实例
指令跟随：16个类别，900个实例
情感感知：5个类别，500个实例
安全对齐：1个类别，400个实例
延迟：实时因子(RTF)计算

4. 鲁棒性

噪声：2个类别，1200个实例
混响：1个类别，600个实例
远场：1个类别，800个实例
丢包：1个类别，500个实例
削波失真：1个类别，500个实例

📈 数据统计

总实例数：9400
评估方法：基于规则的准确性评估、LLM评估、UTMOS、WER等

🛠️ 快速开始

环境准备：
- 下载emotion2vec_plus_large和whisper-large-v3模型
- 安装UTMOS-demo和相关依赖
模型推理：
- 示例推理结果路径：result/llama-omni
评估流程：
- 执行Whisper ASR
- 执行Qwen2.5-Max评估和情感声学评估
- 读取各集合分数并计算总体性能

🏆 排行榜

包含Tiny Models和Base Models两类模型的性能比较，评估指标包括：

知识准确率(Acc%)
推理得分
创造力得分
流畅度(UTMOS)
清晰度(WER%)
单轮/多轮对话得分
指令跟随率(FR%)
情感感知得分
安全拒绝率(RR%)
实时因子(RTF)
平均保持率(Avg PR %)
总体得分

📚 致谢

使用Whisper进行语音识别
使用emotion2vec_plus_large进行情感识别
使用UTMOS量化声学质量
使用Qwen2.5-Max进行LLM评估

📜 许可

采用Apache-2.0许可证

✍️ 引用

如需使用请引用相关论文

搜集汇总

数据集介绍

构建方式

VocalBench数据集的构建采用了多源文本查询与高质量语音合成的结合方法。首先从开源评估语料库、Qwen2.5-max生成内容和自制内容中获取文本查询，随后通过先进的CosyVoice语音合成系统将其转化为语音查询。为确保评估实例的质量，所有语音查询均经过Whisper ASR转录验证，仅保留完全正确的实例。对于情感感知等特殊任务，额外引入了emotion2vec_plus_large进行语音情感识别验证。数据集最终涵盖9,400个实例，覆盖语义质量、声学性能、对话能力和鲁棒性四个关键维度。

特点

VocalBench作为首个专注于语音交互模型全方位评估的基准测试，其核心特点体现在多维度的系统化评估框架。数据集包含16项基础能力测试，特别强调语音特有的对话场景，如情感化对话和基于说话风格的响应生成。区别于传统文本输出评估，该数据集创新性地整合了UTMOS和词错误率等声学指标，并引入真实环境噪声、混响等干扰条件下的鲁棒性测试。细粒度的标注体系（如知识测试中的主题分类）为模型能力缺陷分析提供了精准依据。

使用方法

使用VocalBench时需遵循模块化评估流程：在语义维度采用LLM自动评分（如Qwen2.5-max）测量知识准确性和创造性；声学维度通过UTMOS预测器和WER计算评估语音自然度与模态对齐性；对话能力测试需模拟多轮交互并记录上下文保持率；鲁棒性评估则需在六种声学干扰条件下计算性能保持率。实验配置要求统一使用非流式语音生成模式，并在相同GPU环境下测量实时因子（RTF）。评估代码库提供了标准化的评分脚本和可视化工具。

背景与挑战

背景概述

VocalBench是由上海交通大学和蚂蚁集团等机构的研究团队于2025年提出的语音交互模型评估基准，旨在系统评估模型在语音对话中的综合能力。该数据集包含9,400个精心设计的测试实例，覆盖语义质量、声学表现、对话能力和鲁棒性四个核心维度，涉及知识问答、逻辑推理、情感交互等16项关键技能。作为首个专注于语音模态交互能力的多维度基准，VocalBench填补了传统评估仅关注文本输出的局限性，为语音大模型的发展提供了标准化测评框架。其创新性地引入声学质量评估和真实对话场景测试，显著推动了人机语音交互领域的研究进程。

当前挑战

VocalBench面临的挑战主要体现在三个方面：在领域问题层面，需解决语音交互特有的多模态对齐难题，包括语义内容与声学特征的同步评估，以及情感语调等副语言特征的量化分析；在构建过程中，面临语音查询合成的自然度控制、跨模态实例的质量验证等工程挑战，特别是专有名词发音准确性和情感语音合成的真实性保障；在评估维度上，需平衡文本语义准确性与语音自然度的双重标准，同时设计对抗噪声、远场等复杂声学环境的鲁棒性测试方案。这些挑战使得该基准的构建需要融合语音合成、情感计算和噪声模拟等多领域技术。

常用场景

经典使用场景

VocalBench作为首个专注于语音交互模型多维度评估的基准，其经典使用场景在于系统化测试模型在语义理解、声学表现、对话流畅度及环境鲁棒性等核心维度的综合能力。该数据集通过9,400个涵盖16项基础技能的测试实例（如知识问答、逻辑推理、情感交互等），为研究者提供了模拟真实语音交互场景的标准化评估环境，尤其适用于对比不同参数规模（如1B至8B）的语音大模型在端到端对话任务中的性能差异。

衍生相关工作

VocalBench的发布催生了一系列语音交互领域的创新研究：基于其发现的声学-语义失配问题，Wang等人（2025b）提出多令牌预测架构VocalNet，将语音响应对齐误差降低46%；Chen等（2025）受其多模态评估启发开发的MinMo模型，首次实现知识准确率与语音延迟的帕累托优化。数据集构建方法论还影响了URO-Bench等后续基准的设计，推动形成更完善的语音交互评估体系。

数据集最近研究