Vox-Profile

github2025-05-23 更新2025-05-24 收录

下载链接：

https://github.com/tiantiaf0627/vox-profile-release

下载链接

链接失效反馈

官方服务：

资源简介：

Vox-Profile是一个语音基础模型基准测试，用于系统评估英语语音中丰富的多维说话者和语音特征。

Vox-Profile serves as a benchmark for voice-based model assessment, systematically evaluating the rich multidimensional speaker and voice characteristics in English speech.

创建时间：

2025-05-16

原始信息汇总

Vox-Profile 数据集概述

数据集简介

Vox-Profile 是一个用于系统评估英语语音中丰富多维说话者和语音特征的基准测试。该基准测试旨在预测静态特征（如说话者年龄、性别、口音和音质）和动态特征（如语音情感、流畅性和表达性）。

数据集特点

音频要求：音频长度需在3至15秒之间，16kHz采样率，单声道。
模型支持：支持WavLM-Large和Whisper-Large V3模型。
特征预测：包括口音、性别、年龄、音质、流畅性和情感等多维特征。

模型列表

WavLM-Large 模型

模型名称	数据来源	预训练模型	使用LoRa	LoRa Rank Size	输出类别
wavlm-large-sex-age	CommonVoice+Timit+Voxceleb	wavlm-large	Yes	16	性别（2类）/年龄（0-100岁）
wavlm-large-broader-accent	11个数据集	wavlm-large	Yes	16	北美/英国/其他（3类）
wavlm-large-narrow-accent	11个数据集	wavlm-large	Yes	16	16种口音
wavlm-large-voice-quality	ParaSpeechCaps	wavlm-large	Yes	16	音质特征
wavlm-large-influency	SEP28K+FluencyBank	wavlm-large	Yes	16	流畅/不流畅
wavlm-large-categorical-emotion	MSP-Podcast	wavlm-large	No	NA	8种情感+其他

Whisper-Large V3 模型

模型名称	数据来源	预训练模型	使用LoRa	LoRa Rank Size	输出类别
whisper-large-v3-broader-accent	11个数据集	whisper-large v3	Yes	16	北美/英国/其他（3类）
whisper-large-v3-narrow-accent	11个数据集	whisper-large v3	Yes	16	16种口音
whisper-large-v3-voice-quality	ParaSpeechCaps	whisper-large v3	Yes	16	音质特征
whisper-large-v3-influency	SEP28K+FluencyBank	whisper-large v3	Yes	16	流畅/不流畅
whisper-large-v3-categorical-emotion	MSP-Podcast	whisper-large v3	Yes	16	8种情感+其他

应用场景

语音模型性能分析：用于分析不同特征下的语音模型性能。
语音生成任务自动评估工具：用于评估语音生成模型的表现。
生成合成说话风格提示：提供多样化的说话风格描述。

引用

如需使用该数据集或模型，请引用以下论文：

@article{feng2025vox, title={Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits}, author={Feng, Tiantian and Lee, Jihwan and Xu, Anfeng and Lee, Yoonjeong and Lertpetchpun, Thanathai and Shi, Xuan and Wang, Helin and Thebaud, Thomas and Moro-Velazquez, Laureano and Byrd, Dani and others}, journal={arXiv preprint arXiv:2505.14648}, year={2025} }

搜集汇总

数据集介绍

构建方式

在语音计算领域，Vox-Profile数据集通过整合超过15个公开可用的语音数据集，构建了一个多维度的说话人和语音特征评估体系。该数据集采用严格的音频筛选标准，排除了时长不足3秒或超过15秒的片段，确保数据质量与计算效率的平衡。所有音频样本均经过统一处理，转换为16kHz单声道格式，并采用LoRa微调技术对WavLM-Large和Whisper-Large V3等预训练模型进行优化，形成覆盖静态特征（如年龄、性别、口音）和动态特征（如情感、流畅度）的完整评估框架。

使用方法

使用Vox-Profile需通过GitHub仓库获取模型资源，配置Python 3.8环境并安装依赖库。实际应用中，用户需将待分析音频预处理为15秒以内的16kHz单声道格式，随后调用预训练模型进行特征提取。数据集提供两类典型应用范式：直接调用封装好的模型接口获取分类概率，如口音识别模块输出16类地域口音的概率分布；或作为评估工具对语音生成任务进行多维度质量分析。所有模型均支持GPU加速，并附有详细的示例代码指导不同场景下的调用方法。

背景与挑战

背景概述

Vox-Profile数据集由Tiantian Feng等研究人员于2025年提出，旨在系统评估英语语音中多维度的说话人和语音特征。该数据集整合了超过15个公开数据集，涵盖静态特征（如说话人年龄、性别、口音和音质）和动态特征（如语音情感、流畅性和表现力）。作为语音基础模型的基准测试平台，Vox-Profile通过Whisper和WavLM等预训练模型，为语音技术研究提供了标准化评估框架，显著推动了语音合成、自动语音识别等领域的可解释性研究。

当前挑战

Vox-Profile面临的挑战主要体现在两方面：在领域问题层面，多维度语音特征的联合建模存在特征间相互干扰的问题，如口音分类与情感识别的耦合效应；在构建过程中，数据异质性导致标注体系对齐困难，11个源数据集的不同采集条件（朗读/自发/对话语音）需要复杂的归一化处理。此外，3-15秒的音频长度限制虽平衡了计算效率与预测可靠性，但可能损失长时语音的时序特征信息。

常用场景

经典使用场景

在语音技术研究领域，Vox-Profile数据集为系统评估英语语音中丰富的说话人和语音特征提供了标准化基准。该数据集通过整合15个公开数据集，构建了涵盖静态特征（如说话人年龄、性别、口音）和动态特征（如语音情感、流畅度）的多维度评估体系，特别适用于语音模型在多样化说话人特征下的性能分析与比较。其15秒音频片段的设计平衡了计算效率与特征提取可靠性，为语音识别、语音合成等任务提供了理想的测试平台。

解决学术问题

Vox-Profile有效解决了语音技术研究中缺乏系统性多维度评估基准的学术难题。通过统一标注标准和跨数据集整合，该数据集支持研究者探究语音模型在不同人口统计学特征（如地域口音、年龄分组）和语音状态（如情感波动、流畅度）下的性能差异。其实验证明，基于该数据集生成的标签能够复现使用真实标注得出的语音模型性能趋势，为缺乏人工标注的大规模研究提供了可行方案，显著降低了语音技术公平性评估的门槛。

实际应用

该数据集在语音技术产业化过程中展现出重要价值。作为自动化评估工具，Vox-Profile可对比不同语音合成模型在保留源说话人特征方面的性能差异，例如通过口音预测分数定量评估FreeVC与VALLE-X的发音特征迁移能力。在智能客服领域，其动态特征评估模块能够优化语音交互系统的情感响应适配上；在教育科技中，口音分类功能可辅助语言学习软件提供针对性发音矫正。

数据集最近研究