VoxEval

github2025-01-20 更新2025-02-10 收录

下载链接：

https://github.com/dreamtheater123/VoxEval

下载链接

链接失效反馈

官方服务：

资源简介：

VoxEval是一个新颖的语音问答基准，特别设计用于通过纯语音交互来评估SLMs的知识理解能力。

VoxEval is a novel voice question answering benchmark, specifically designed to evaluate the knowledge understanding capabilities of Speech Language Models through pure voice interaction.

创建时间：

2025-01-15

原始信息汇总

VoxEval数据集概述

基本信息

名称：VoxEval
类型：语音问答基准测试
目的：评估端到端语音语言模型（SLMs）通过纯语音交互的知识理解能力
论文：VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models
许可证：Creative Commons Attribution 4.0

主要特点

端到端语音评估：输入和输出均为音频
多样化音频条件：包含不同说话者、说话风格和音频质量的音频文件
复杂语音评估：支持高级语音评估任务，包括语音数学任务

数据集结构

all_fewshot_examples：包含评估的少样本示例
- 子文件夹按不同说话者声音（如alloy、echo等）和不同主题（如abstract_algebra_4o等）组织
math_CoT_fewshot：包含通过思维链提示评估数学主题的少样本示例
test：包含VoxEval的实际测试数据

下载与访问

下载地址：VoxEval Dataset Repository

评估流程

克隆目标SLM的代码库并下载模型检查点
设置conda环境
创建包含e2e_evaluation(input_audio, sample_rate)函数的文件
使用VoxEval_evaluation.py脚本进行评估

评估示例（GLM-4-Voice）

复制./examples/VoxEval_eval_glm.py到GLM-4-Voice代码库
设置GLM conda环境
运行评估命令

现有SLMs评估结果

SLMs	SpeechGPT	TWIST	SPIRIT-LM	Moshi	GLM-4-Voice
Speakers
Alloy	0.0001	0.0480	0.2084	0.1216	0.3763
Echo	0.0001	0.0558	0.2096	0.1221	0.3764
Fable	0.0000	0.0116	0.2084	0.1153	0.3642
Nova	0.0001	0.0332	0.2070	0.1298	0.3677
Onyx	0.0002	0.0275	0.1966	0.1192	0.3764
Shimmer	0.0000	0.0516	0.2076	0.1205	0.3815
Speaking Styles
Linguistic	0.0001	0.0488	0.2044	0.1187	0.3643
Speed	0.0001	0.0503	0.1911	0.1013	0.3469
Pitch	0.0000	0.0544	0.1788	0.0609	0.3345
Audio Qualities
Noise	0.0000	0.0368	0.1950	0.1018	0.3695
Other Env Acoustics	0.0001	0.0434	0.2019	0.1051	0.3728
Underlying Text LMs	Llama-7B	Llama-7B	Llama-2-7B	Helium-7B	GLM-4-9B
Text MMLU	0.3510	0.3510	0.4530	0.5430	0.7470

引用

bibtex @article{cui2025voxeval, title={VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models}, author={Cui, Wenqian and Jiao, Xiaoqi and Meng, Ziqiao and King, Irwin}, journal={arXiv preprint arXiv:2501.04962}, year={2025} }

搜集汇总

数据集介绍

构建方式

VoxEval数据集的构建，专注于端到端的语音问答评估，其特色在于输入与输出均采用音频形式。数据集涵盖了不同说话人、说话风格和音频质量，以及复杂的口语评估任务，如数学问题的口语解答，旨在全面评估语音语言模型的知识理解能力。

特点

VoxEval数据集的主要特点包括：端到端的语音评估方式，多样化的音频条件，以及支持复杂口语评估任务。该数据集不仅包含了不同说话人的声音样本，还涵盖了不同的说话风格和音频质量，从而为语音语言模型的评估提供了丰富的场景。

使用方法

用户可以通过访问Hugging Face的VoxEval数据集仓库直接下载数据。数据集文件夹布局清晰，包含少数样本示例和实际测试数据，方便研究者进行不同条件下的模型评估。

背景与挑战

背景概述

VoxEval语音数据集，由Cui Wenqian、Jiao Xiaoqi、Meng Ziqiao和King Irwin等研究人员于2025年提出，旨在通过纯语音交互评估端到端语音语言模型的知识理解能力。该数据集的设计理念是评估模型在语音输入和输出条件下的表现，涵盖了多样化的说话人、说话风格和音频质量，支持复杂的口语评估任务，包括口算任务。VoxEval的提出对语音语言模型研究领域产生了重要影响，为评估模型的知识理解能力提供了新的基准。

当前挑战

VoxEval数据集面临的挑战主要涉及两个方面：一是如何准确评估端到端语音语言模型在纯语音交互中的知识理解能力，这要求数据集能够提供多样化的音频条件和复杂的口语评估任务；二是构建过程中，保证音频质量、说话人多样性和说话风格的广泛覆盖，同时确保评估的公正性和准确性。当前的研究结果显示，不同语音模型在VoxEval上的表现各异，这提示了进一步优化模型和评估方法的必要性。

常用场景

经典使用场景

VoxEval数据集专为评估端到端语音模型的认知理解能力而设计，其经典使用场景在于通过纯语音交互进行知识的评估。该数据集涵盖了多样化的语音环境和复杂的口语评估任务，如数学题目的口语解答，为研究者和开发者提供了一个全面而细致的测试平台。

衍生相关工作

VoxEval数据集的推出促进了相关领域的研究进展，衍生出了一系列经典工作。这些工作不仅关注语音模型的性能评估，还包括了对语音识别、语音合成、以及多模态交互技术的深入研究，进一步推动了人机交互技术的发展。

数据集最近研究