VQ-Bench

Name: VQ-Bench
Creator: 瑞典皇家理工学院语音、音乐与听力系
Published: 2025-10-29 22:44:44
License: 暂无描述

arXiv2025-10-29 更新2025-10-31 收录

下载链接：

https://anonymous.4open.science/r/Lost-in-phonation-65B9

下载链接

链接失效反馈

官方服务：

资源简介：

VQ-Bench是一个可控的评价套件，旨在测试语音基础模型（SFM）对语音质量变化的敏感性。数据集包括以四种语音质量（正常、气声、沙哑、尾沙哑）合成的并行提示。该数据集用于评估两种互补的设置：长格式、开放式生成任务和语音情感识别。

VQ-Bench is a controlled evaluation benchmark developed to assess the sensitivity of Speech Foundation Models (SFMs) to variations in speech quality. The dataset consists of parallel prompts synthesized under four distinct speech quality conditions: normal, breathy, hoarse, and final-hoarse. This benchmark is employed to evaluate two complementary evaluation settings: long-form open-ended generation tasks and speech emotion recognition.

提供机构：

瑞典皇家理工学院语音、音乐与听力系

创建时间：

2025-10-29

搜集汇总

数据集介绍

构建方式

在语音基础模型快速发展的背景下，VQ-Bench数据集通过系统化方法构建了包含不同发声类型的平行语音样本。该数据集采用Buckeye语料库的自然对话语音和VCTK语料库的朗读语音作为基础素材，利用F5-TTS零样本语音合成系统生成原始提示音频，再通过VoiceQualityVC技术对声门源特征进行精确调控，分别生成标准发声、气声、嘎裂声和尾音嘎裂四种发声变体。这种构建方式确保了在保持说话人身份和语言内容恒定的前提下，实现对语音质量的系统性操控。

特点

该数据集最显著的特点是实现了对语音质量维度的精准控制，涵盖了英语中占比达90%的三种主要发声类型。通过声学参数H1-H2和H1-A3的量化测量，确保了不同发声类型在声学特征上的显著区分度。数据集包含治疗、职业建议、面试筛选和故事讲述四个真实应用场景的提示语，每个场景下设计五个不同变体，形成了完整的评估矩阵。这种设计使得研究者能够深入探究语音质量变化对模型行为的细微影响。

使用方法

该数据集主要应用于语音基础模型的系统性评估，特别聚焦于开放生成任务和语音情感识别两个维度。在开放生成任务中，模型需要根据语音提示生成长文本回复，随后通过大型语言模型评委对回复内容在多维度进行评分。在语音情感识别任务中，利用预训练的Wav2Vec2.0模型预测八种基本情感类别。这种双轨评估方法能够全面揭示语音质量变化对模型推理过程和情感感知的影响机制，为研究语音质量在语音技术中的角色提供了标准化评估框架。

背景与挑战

背景概述

语音基础模型的快速发展正在重塑口语信息的表征与理解范式。VQ-Bench由瑞典皇家理工学院团队于2025年创建，聚焦于语音质量变异这一被忽视的副语言维度，旨在系统评估模型对气声、嘎裂声等发声类型的敏感度。该数据集通过合成语音质量参数化转换技术，构建包含模态声、气声、嘎裂声及末端嘎裂声的平行语料，填补了现有评测体系在非词汇特征解析能力验证上的空白。

当前挑战

在解决语音副语言理解问题的过程中，需攻克模型对发声类型社会语义编码一致性的验证难题，包括语音情感识别中的声学特征混淆现象与长文本生成中的社会偏见放大风险。数据集构建阶段面临声学参数精准控制的挑战，需在保持说话人身份与语言内容恒定的前提下，通过声门源特征修改实现不同发声类型的自然转换，并确保H1-H2、H1-A3等声学参数的区分度满足感知研究要求。

常用场景

经典使用场景

在语音基础模型评估领域，VQ-Bench作为首个系统研究发声质量变化的基准数据集，其经典应用场景聚焦于探究不同发声类型对模型行为的潜在影响。该数据集通过合成模态声、气息声、嘎裂声及尾音嘎裂四种发声变体，构建了包含治疗建议、职业咨询、面试筛选和故事讲述四类真实对话场景的平行语料，为深入解析语音模型对副语言特征的敏感度提供了标准化实验平台。

解决学术问题

该数据集有效解决了语音技术研究中长期存在的副语言特征评估难题。传统多选问答评估框架难以捕捉发声质量等非词汇特征对模型推理过程的细微影响，VQ-Bench通过开放式生成任务与语音情感识别的双轨评估，首次系统揭示了语音基础模型在处理嘎裂声与气息声时的行为差异。其创新性在于突破了文本对齐评估的局限，为理解模型如何编码社会语言学意义上的发声特征提供了实证基础。

衍生相关工作

该数据集推动了语音公平性研究的多维发展，衍生出若干重要研究方向。基于VQ-Bench的实证结果，研究者开始探索跨文化发声特征的模型泛化能力，开发针对非二元性别声音的评估协议。在技术层面，该数据集催生了改进语音合成系统中副语言特征控制的方法研究，同时促进了将声学参数与社交语义映射关系量化的计算模型，为构建更具包容性的语音技术标准奠定了基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集