five

VocalBench

收藏
github2025-05-30 更新2025-05-31 收录
下载链接:
https://github.com/SJTU-OmniAgent/VocalBench
下载链接
链接失效反馈
官方服务:
资源简介:
VocalBench是一个全面的评估基准,用于评估语音交互模型的语音通信能力。它包括语义、声学、聊天和鲁棒性四个维度,每个维度下有不同的能力和评估方法。

VocalBench serves as a comprehensive evaluation benchmark for assessing the voice communication capabilities of voice interaction models. It encompasses four dimensions: semantics, acoustics, conversation, and robustness, with various competencies and evaluation methods within each dimension.
创建时间:
2025-05-21
原始信息汇总

VocalBench 数据集概述

📌 数据集简介

VocalBench 是一个用于评估语音交互模型口语交流能力的综合性基准测试,由上海交通大学和蚂蚁集团联合开发。

📊 核心维度与能力

1. 语义维度 (Semantic)

  • 知识能力 (Knowledge)

    • 类别:13类
    • 实例数:2000
    • 数据源:LLaMA-Q, Web-Q, TriviaQA, SciQ
    • 评估方法:基于规则的准确率 (Accuracy)
  • 推理能力 (Reasoning)

    • 类别:8类
    • 实例数:1000
    • 数据源:CommonsenseQA, gsm8k, STORAL, LLM-generated, self-made
    • 评估方法:LLM评估 (Score)
  • 创造能力 (Creativity)

    • 类别:6类
    • 实例数:400
    • 数据源:Web, LLM-generated, self-made
    • 评估方法:LLM评估 (Score)

2. 声学维度 (Acoustic)

  • 流畅度 (Fluency)

    • 评估指标:UTMOS
    • 数据源:单轮对话集
  • 清晰度 (Clarity)

    • 评估指标:WER (词错误率)
    • 数据源:单轮对话集

3. 对话维度 (Chat)

  • 单轮对话 (Single-Round)

    • 类别:2类
    • 实例数:200
    • 数据源:AlpacaEval, LLM-generated, self-made
    • 评估方法:LLM评估 (Score)
  • 多轮对话 (Multi-round)

    • 类别:13类
    • 实例数:400
    • 数据源:mt-bench-101
    • 评估方法:LLM评估 (Score)
  • 指令跟随 (Instruction Following)

    • 类别:16类
    • 实例数:900
    • 数据源:FollowBench, InfoBench等
    • 评估方法:LLM评估 (跟随率)
  • 情感感知 (Emotion Aware)

    • 类别:5类
    • 实例数:500
    • 数据源:LLM-generated, self-made
    • 评估方法:语义+声学评分
  • 安全对齐 (Safety Alignment)

    • 类别:1类
    • 实例数:400
    • 数据源:SafetyTraining (test)
    • 评估方法:LLM评估 (拒绝率)
  • 延迟 (Latency)

    • 评估指标:RTF (实时因子)
    • 数据源:单轮对话集

4. 鲁棒性维度 (Robustness)

  • 噪声 (Noise)

    • 类别:2类
    • 实例数:1200
    • 评估指标:LLM评估 (Score, 保持率)
  • 混响 (Reverberation)

    • 类别:1类
    • 实例数:600
    • 评估指标:LLM评估 (Score, 保持率)
  • 远场 (Far-field)

    • 类别:1类
    • 实例数:800
    • 评估指标:LLM评估 (Score, 保持率)
  • 丢包 (Packet Loss)

    • 类别:1类
    • 实例数:500
    • 评估指标:LLM评估 (Score, 保持率)
  • 剪切失真 (Clipping Distortion)

    • 类别:1类
    • 实例数:500
    • 评估指标:LLM评估 (Score, 保持率)

📂 数据总量

  • 总实例数:9400

🛠️ 使用工具

  • 语音识别:Whisper-large-v3
  • 情感识别:emotion2vec_plus_large
  • 声学质量评估:UTMOS
  • LLM评估:Qwen2.5-Max

📜 许可协议

  • Apache-2.0 许可证

📝 引用

bibtex @article{liu2025vocalbench, title={VocalBench: Benchmarking the Vocal Conversational Abilities for Speech Interaction Models}, author={Liu, Heyang and Wang, Yuhao and Cheng, Ziyang and Wu, Ronghua and Gu, Qunshan and Wang, Yanfeng and Wang, Yu}, journal={arXiv preprint arXiv:2505.15727}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
VocalBench作为语音交互模型评估基准,采用多维度结构化构建方法。数据集整合了来自LLaMA-Q、TriviaQA等权威知识库的语义数据,结合CommonsenseQA等推理数据集,并融合自建创意语料,形成9400条标注样本。技术实现上采用模块化设计,通过Whisper ASR系统进行语音转写,结合UTMOS声学评估模型和Qwen2.5-Max大语言模型构建多级评估体系,在噪声、混响等六种干扰环境下验证模型鲁棒性。
使用方法
使用该数据集需分阶段实施:首先配置Whisper-large-v3和emotion2vec-plus-large等基础模型环境,下载HuggingFace或ModelScope平台的查询音频。通过标准化流程执行语音识别、Qwen2.5-Max语义评估及情感声学分析,最终运行评分脚本生成多维能力雷达图。评估过程支持模块化拆解,研究者可单独测试特定维度,或通过gen_score.sh脚本获取综合性能指标。数据集提供leaderboard机制,便于横向比较不同模型在12项指标上的表现。
背景与挑战
背景概述
VocalBench是由上海交通大学与蚂蚁集团联合开发的语音交互模型评估基准,旨在全面评估语音交互模型的对话能力。该数据集于2025年发布,核心研究问题聚焦于语音交互模型在语义理解、声学表现、对话流畅度及环境鲁棒性等多维度的综合性能评估。通过整合知识问答、逻辑推理、创造性表达等语义任务,以及声学质量、多轮对话、指令跟随等功能测试,VocalBench为语音交互领域提供了标准化评估框架,推动了语音大模型技术的发展与应用。
当前挑战
VocalBench面临的挑战主要体现在两个方面:领域问题方面,语音交互模型需同时兼顾语义准确性与声学自然度,且在复杂声学环境下保持稳定性,这对模型的跨模态融合与抗干扰能力提出极高要求;构建过程方面,数据采集需覆盖多样化场景与口音,标注工作涉及跨模态对齐,评估指标设计需平衡主观体验与客观量化,这些因素均增加了数据集构建的复杂度。此外,实时性要求与计算资源限制也为基准测试的实施带来挑战。
常用场景
经典使用场景
VocalBench作为语音交互模型评估的标杆数据集,在语音合成与自然语言处理交叉领域具有重要地位。该数据集通过9400个标注实例,系统评估模型在语义理解、声学表现、对话流畅度和环境鲁棒性等维度的综合能力,尤其适用于多轮对话系统和实时语音助手的开发测试。其精心设计的知识问答、推理挑战和创意表达等任务,为研究者提供了全面衡量模型认知能力的标准化平台。
解决学术问题
该数据集有效解决了语音交互领域缺乏统一评估框架的难题。通过构建包含13类知识问答、8种推理任务和6项创意测试的语义评估体系,以及针对噪声、混响、远场等复杂声学场景的鲁棒性测试,填补了传统评估仅关注单维度性能的缺陷。其创新的实时因子(RTF)计算和多轮对话评分机制,为衡量模型实用化水平提供了量化标准,推动了端到端语音交互系统的研究进程。
实际应用
在智能客服、车载语音系统等实际场景中,VocalBench的评估指标直接对应着用户体验的关键要素。其声学维度下的UTMOS自然度评分和WER清晰度指标,可优化语音合成的听觉舒适度;情感感知测试能提升对话系统的共情能力;而400个安全对齐案例的拒绝率评估,则确保了交互系统的伦理合规性。这些特性使其成为工业界产品迭代的重要参考依据。
数据集最近研究
最新研究方向
在语音交互模型领域,VocalBench作为一项综合性评估基准,正引领着多维度能力评测的前沿研究。该数据集聚焦语义生成、声学表现、对话流畅性和环境鲁棒性四大核心维度,为语音大模型的性能优化提供了标准化评估框架。当前研究热点集中于如何通过多模态融合提升模型在复杂声学环境下的语义保持率,以及探索低延迟与高语音质量之间的平衡点。随着Qwen2.5-Max等大型语言模型评估工具的引入,研究者们正在构建更精确的跨模态对齐评估体系,这对智能语音助手、车载交互系统等实际应用场景具有重要指导意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作