VoiceAssistant-Eval

github2025-09-29 更新2025-10-01 收录

下载链接：

https://github.com/mathllm/VoiceAssistant-Eval

下载链接

链接失效反馈

官方服务：

资源简介：

VoiceAssistant-Eval是一个用于评估AI助手在听、说、看等多模态能力方面的基准测试数据集。它解决了现有基准测试的四个关键弱点：缺乏语音个性化评估、对手持自由交互关注有限、忽视真实世界音频环境以及视觉+音频多模态评估不足。该数据集包含多样化的任务，涵盖音频理解、视觉问答和多模态推理等，旨在推动下一代AI助手的平衡发展。

VoiceAssistant-Eval is a benchmark dataset for evaluating the multimodal capabilities of AI assistants across listening, speaking, and visual comprehension. It addresses four critical shortcomings of existing benchmark datasets: lack of personalized speech evaluation, limited attention to free-form interaction on handheld devices, neglect of real-world audio environments, and insufficient vision-audio multimodal evaluation. This dataset includes diverse tasks covering audio understanding, visual question answering, multimodal reasoning and more, aiming to promote the balanced development of next-generation AI assistants.

创建时间：

2025-09-27

原始信息汇总

VoiceAssistant-Eval 数据集概述

数据集基本信息

数据集名称: VoiceAssistant-Eval
官方论文: VoiceAssistant-Eval: Benchmarking AI Assistants across Listening, Speaking, and Viewing
数据规模: 10,497个精心策划的示例
任务类别: 13个任务类别
主页地址: https://mathllm.github.io/VoiceAssistantEval/
HuggingFace数据集: https://huggingface.co/datasets/MathLLMs/VoiceAssistant-Eval

核心特点与创新

解决现有基准的四个关键弱点

W1: 缺乏语音个性化评估 - 测试模型模仿特定声音的能力
W2: 对免提交互关注有限 - 强调真正的语音优先、免提使用
W3: 忽视真实世界音频上下文 - 涵盖多样化、现实的音频环境
W4: 多模态（视觉+音频）评估不足 - 测试联合语音和视觉输入

评估维度

听(Listening): 自然声音、音乐和口语对话
说(Speaking): 多轮对话、角色扮演模仿和各种场景
看(Viewing): 高度异构的图像理解

任务构成

听任务: 通用、音乐、声音、语音
说任务: 助手、情感、指令遵循、多轮、推理、鲁棒性、角色扮演、安全
看任务: 多学科

评估模型

专有模型

GPT-4o-Audio

开源模型（21个）

Qwen2.5-Omni-7B
MiniCPM-o-2_6
Baichuan-Omni-1d5
Kimi-Audio
Step-Audio
Step-Audio-2-mini
GLM-4-Voice
LLaMA-Omni2-32B-Bilingual

关键发现

专有模型并不普遍优于开源模型
大多数模型在说话任务上表现出色，但在音频理解方面滞后
设计良好的较小模型可以与更大的模型相媲美
Step-Audio-2-mini (7B)的听力准确率是LLaMA-Omni2-32B-Bilingual的两倍多
20个模型在说话任务上的得分高于听力任务

评估框架

三元评估系统

内容质量: 响应准确性、帮助性和适当性
语音质量: 音频自然度和流畅度
一致性: 预期内容与实际语音输出的对齐度

最终得分计算

最终得分 = 内容得分 × 语音得分 × 一致性得分 × 100%

技术实现

评估组件

情感分析: emotion2vec_plus_large模型
说话人相似度: WeSpeaker voxblink2_samresnet100_ft模型
内容质量评估: gpt-oss-20b模型
语音质量评估: UTMOS22_strong模型
一致性评估: Whisper-Large-v3转录 + 改进的WER计算

排行榜

官方排行榜: https://mathllm.github.io/VoiceAssistantEval/#leaderboard
详细排行榜: https://mathllm.github.io/VoiceAssistantEval/#detailedleaderboard
角色扮演排行榜: https://mathllm.github.io/VoiceAssistantEval/#roleplayleaderboard

搜集汇总

数据集介绍

构建方式

在语音助手技术快速演进的背景下，VoiceAssistant-Eval数据集通过精心设计的流程构建而成，涵盖10,497个多样化实例，分布于13项核心任务类别。该数据集整合了自然声音、音乐对话等听觉素材，多轮交互与角色模仿等口语表达场景，以及高度异质的视觉图像资源，确保评估维度的全面性。构建过程中特别注重真实环境下的语音个性化与多模态融合需求，每一实例均经过严格筛选与标注，为评估模型在复杂情境下的综合能力奠定坚实基础。

特点

作为面向下一代语音助手的前沿基准，VoiceAssistant-Eval展现出多维度特性。其任务设计突破了传统文本主导的局限，深入模拟真实世界中的听觉环境与视觉交互场景，尤其强化了对语音个性化模仿与无接触交互的评估。数据集涵盖音乐理解、多模态推理等新兴挑战，并首次系统化引入角色扮演语音相似性度量。通过均衡分配听、说、看三类任务，该基准有效揭示了模型在不同模态间的能力差异，为技术发展提供了精准的参照体系。

使用方法

在具体应用层面，VoiceAssistant-Eval提供了一套完整的评估框架，通过内容质量、语音质量与一致性三大维度对模型性能进行系统化度量。研究人员可按照标准流程运行情感分析、说话人相似性计算等核心模块，利用集成工具链获取模型在各项任务中的表现指标。评估结果采用统一评分机制，综合考量生成内容的准确性、语音自然度及内容与语音的匹配程度，最终形成全面客观的性能报告，为模型优化与比较研究提供可靠依据。

背景与挑战

背景概述

随着大语言模型与多模态系统能力的显著提升，语音优先的人工智能助手成为研究热点。然而，现有评测基准在全面评估此类系统能力方面存在明显不足。VoiceAssistant-Eval数据集由MathLLM研究团队于2025年创建，旨在构建覆盖听觉、言语与视觉能力的综合评测框架。该数据集包含10,497个精心设计的样本，涵盖13类任务，重点关注语音个性化、无接触交互、真实音频场景及多模态融合等核心问题，为下一代多模态语音助手的发展提供了标准化评估依据。

当前挑战

该数据集致力于解决多模态语音助手在真实场景中面临的核心挑战：语音个性化模仿能力不足导致个性化应用受限；纯语音交互场景下的理解可靠性亟待提升；复杂音频环境（如音乐、自然声）的语义解析存在困难；跨模态（视觉与听觉）融合推理能力显著薄弱。在构建过程中，需克服多模态数据采集的复杂性，确保语音与视觉样本的语义对齐，同时建立兼顾内容质量、语音自然度与跨模态一致性的三维评估体系，这对标注精度与评估方法的科学性提出了极高要求。

常用场景

经典使用场景

在语音助手技术快速演进的背景下，VoiceAssistant-Eval数据集通过涵盖听觉理解、语音生成与视觉交互的13类任务，为评估多模态AI系统提供了标准化测试环境。该数据集特别注重模拟真实对话场景，例如在嘈杂环境中识别自然声音、执行多轮语音对话以及结合视觉信息进行综合推理，这些场景直接反映了智能助手在日常生活与专业领域中的核心应用需求。

衍生相关工作

基于该数据集构建的评估范式已催生系列创新研究，例如MathVision项目将多模态数学推理扩展至动态视觉问题求解，MathCoder系列工作通过代码增强策略提升了逻辑推理的可解释性。这些衍生研究不仅延续了跨模态评估的技术路线，更在数学教育、编程辅助等领域形成了新的技术生态，推动着具身智能系统的实用化进程。

数据集最近研究