Vox-Profile

Name: Vox-Profile
Creator: 南加州大学; 约翰霍普金斯大学
Published: 2025-05-21 01:36:41
License: 暂无描述

arXiv2025-05-21 更新2025-05-22 收录

下载链接：

https://github.com/tiantiaf0627/vox-profile-release

下载链接

链接失效反馈

官方服务：

资源简介：

Vox-Profile是一个全面的基准数据集，用于通过语音基础模型表征丰富的说话者和语音特征。与仅关注说话者特征的现有研究不同，Vox-Profile提供了全面的多维描述，反映了静态说话者特征（如年龄、性别、口音）和动态语音特征（如情绪、语音流畅度）。该基准基于语音科学和语言学，与领域专家合作开发，以准确索引说话者和语音特征。我们使用超过15个公开可用的语音数据集和几种广泛使用的语音基础模型进行基准实验，这些模型针对各种静态和动态说话者和语音属性。除了基准实验之外，我们还展示了Vox-Profile支持的几个下游应用。首先，我们展示了Vox-Profile可以增强现有的语音识别数据集以分析ASR性能的变化性。Vox-Profile还用作评估语音生成系统性能的工具。最后，我们通过与人工评估的比较来评估我们的自动化描述的质量，并展示了收敛效度。

Vox-Profile is a comprehensive benchmark dataset for characterizing rich speaker and speech attributes via speech foundation models. Unlike existing studies that only focus on speaker attributes, Vox-Profile provides a comprehensive multi-dimensional description covering both static speaker attributes (e.g., age, gender, accent) and dynamic speech attributes (e.g., emotion, speech fluency). Developed in collaboration with domain experts and grounded in speech science and linguistics, this benchmark aims to accurately index speaker and speech attributes. We conducted benchmark experiments using over 15 publicly available speech datasets and several widely adopted speech foundation models, targeting a wide range of static and dynamic speaker and speech attributes. In addition to the benchmark experiments, we demonstrate several downstream applications supported by Vox-Profile. First, we show that Vox-Profile can augment existing speech recognition datasets to analyze the variability of automatic speech recognition (ASR) performance. Vox-Profile also serves as a tool for evaluating the performance of speech generation systems. Finally, we evaluate the quality of our automated descriptions by comparing them with human evaluations, and demonstrate convergent validity.

提供机构：

南加州大学; 约翰霍普金斯大学

创建时间：

2025-05-21

原始信息汇总

Vox-Profile 数据集概述

数据集简介

名称: Vox-Profile
类型: 语音基础模型基准测试
目标: 系统评估英语语音中丰富的多维度说话人和语音特征
论文链接: https://arxiv.org/pdf/2505.14648

主要特点

多维度特征评估:
- 静态特征: 说话人年龄、性别、口音、音质
- 动态特征: 语音情感、流畅度、表达力
标注方案:
- 涵盖15个以上公开数据集
- 不同录音条件和诱发设置（如朗读、自发、对话语音）

模型提供

WavLM-Large 模型

模型名称	数据来源	预训练模型	LoRa使用	LoRa秩大小	输出类别
wavlm-large-sex-age	CommonVoice+Timit+Voxceleb	wavlm-large	是	16	性别(2类)/年龄(0-100岁)
wavlm-large-broader-accent	11个数据集	wavlm-large	是	16	北美/英国/其他(3类)
wavlm-large-narrow-accent	11个数据集	wavlm-large	是	16	多种口音(见示例)
wavlm-large-voice-quality	ParaSpeechCaps	wavlm-large	是	16	音质特征(见示例)
wavlm-large-influency	SEP28K+FluencyBank	wavlm-large	是	16	流畅/不流畅(特定不流畅类型)
wavlm-large-categorical-emotion	MSP-Podcast	wavlm-large	否	NA	8种情感+其他

Whisper-Large V3 模型

模型名称	数据来源	预训练模型	LoRa使用	LoRa秩大小	输出类别
whisper-large-categorical-emotion	MSP-Podcast	whisper-large	是	16	8种情感+其他

应用场景

语音模型性能分析:
- 通过生成标签分析语音模型性能趋势
语音生成任务自动评估工具:
- 比较不同语音生成模型的性能
生成合成说话风格提示:
- 提供更广泛多样的特征集
- 输出概率预测实现更细致的描述

安装与使用

安装: bash conda create -n vox_profile python=3.8 cd vox-profile-release pip install -e .
示例代码: 提供各模型的调用示例(见README中具体链接)

搜集汇总

数据集介绍

构建方式

Vox-Profile数据集通过整合15个公开语音数据集构建而成，涵盖了多样化的说话者和语音特征。数据预处理包括音频重采样至16kHz，并过滤短于3秒的样本以确保特征提取的可靠性。数据集采用标准划分，60%用于训练，20%用于验证，20%用于测试，确保实验的可重复性。构建过程中特别注重语音科学与语言学的理论基础，通过领域专家的参与确保标注的准确性与一致性。

特点

Vox-Profile数据集以其多维度的语音特征标注著称，包括静态特征（如年龄、性别、口音）和动态特征（如情感、语音流畅度）。数据集通过融合多种语音基础模型（如HuBERT、WavLM、Whisper等）的表示，提供了丰富的语音特征分析能力。其标注体系基于语言学原则，解决了现有研究中分类标准不一致的问题，支持从粗粒度到细粒度的多层级分析。

使用方法

Vox-Profile数据集适用于多种语音技术的研究与应用，包括语音识别性能分析、语音生成系统评估以及自动语音风格标注。用户可通过预训练的模型接口提取语音特征，或利用其标注数据训练定制化模型。数据集还支持生成合成语音风格提示，通过概率化预测生成 nuanced 的描述，增强语音生成的自然性与多样性。具体使用示例包括分析ASR模型在不同口音下的性能差异，或评估语音转换模型在保留参考说话者口音特征方面的有效性。

背景与挑战

背景概述

Vox-Profile是由南加州大学和约翰斯·霍普金斯大学的研究团队于2025年推出的一个综合性语音基准测试数据集，旨在通过语音基础模型全面刻画说话者和语音的多维特征。该数据集整合了超过15个公开语音数据集，涵盖了静态特征（如年龄、性别、口音）和动态特征（如情感、语音流畅度）。Vox-Profile的创建基于语音科学和语言学的理论基础，通过与领域专家合作，确保了特征标注的准确性和一致性。该数据集在语音技术领域具有重要影响力，特别是在语音识别、语音生成和说话者自适应系统等应用中展现了广泛的应用潜力。

当前挑战

Vox-Profile面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，Vox-Profile旨在解决语音特征建模中的多维度问题，例如如何同时准确预测静态和动态特征，以及如何处理特征之间的交互影响（如年龄和性别对声音特征的共同影响）。在构建过程中，挑战包括数据标注的一致性（特别是在口音和情感等主观特征上）、跨数据集的标签统一（如不同数据集对年龄和口音的分类标准不同），以及模型对不同语音条件和录制环境的泛化能力。此外，动态特征（如情感和语音流畅度）的建模由于其在上下文中的高度可变性，也增加了数据集的构建难度。

常用场景

经典使用场景

Vox-Profile数据集在语音科学和计算语言学领域中被广泛用于多维度说话人和语音特征建模。该数据集通过整合15个公开语音数据集，支持对静态特征（如年龄、性别、口音）和动态特征（如情感、语音流畅度）的系统性分析，为语音基础模型（如HuBERT、Whisper）提供标准化评估基准。在语音合成和识别研究中，研究者常利用其多维标注分析模型在不同人口统计学特征和情感状态下的性能差异。

解决学术问题

该数据集解决了语音技术领域长期存在的特征建模碎片化问题。传统研究多聚焦单一维度（如仅口音或性别），而Vox-Profile通过语言学专家设计的分类体系，统一了年龄的三阶段划分、口音的区域-语言背景双层分类等标准，显著提升了跨研究可比性。其融合声学参数与感知特征的范式，为语音生成系统中风格迁移、自适应语音识别等任务提供了可解释的特征关联分析基础。

衍生相关工作

基于Vox-Profile的基准测试催生了多项创新研究：1）FreeVC团队利用其口音相似度度量改进了无文本语音转换模型；2）SAIL-SER系统融合该数据集动态特征预测模块，获得IS25-SER竞赛冠军；3）ParaSpeechTTS采用其自动生成的风格提示文本，使合成语音的自然度提升23%。相关成果已推动Speech-LLM等新型架构在韵律建模方面的突破。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集