five

Vox-Profile

收藏
github2025-05-23 更新2025-05-24 收录
下载链接:
https://github.com/tiantiaf0627/vox-profile-release
下载链接
链接失效反馈
官方服务:
资源简介:
Vox-Profile是一个语音基础模型基准测试,用于系统评估英语语音中丰富的多维说话者和语音特征。

Vox-Profile serves as a benchmark for voice-based model assessment, systematically evaluating the rich multidimensional speaker and voice characteristics in English speech.
创建时间:
2025-05-16
原始信息汇总

Vox-Profile 数据集概述

数据集简介

Vox-Profile 是一个用于系统评估英语语音中丰富多维说话者和语音特征的基准测试。该基准测试旨在预测静态特征(如说话者年龄、性别、口音和音质)和动态特征(如语音情感、流畅性和表达性)。

数据集特点

  • 音频要求:音频长度需在3至15秒之间,16kHz采样率,单声道。
  • 模型支持:支持WavLM-Large和Whisper-Large V3模型。
  • 特征预测:包括口音、性别、年龄、音质、流畅性和情感等多维特征。

模型列表

WavLM-Large 模型

模型名称 数据来源 预训练模型 使用LoRa LoRa Rank Size 输出类别
wavlm-large-sex-age CommonVoice+Timit+Voxceleb wavlm-large Yes 16 性别(2类)/年龄(0-100岁)
wavlm-large-broader-accent 11个数据集 wavlm-large Yes 16 北美/英国/其他(3类)
wavlm-large-narrow-accent 11个数据集 wavlm-large Yes 16 16种口音
wavlm-large-voice-quality ParaSpeechCaps wavlm-large Yes 16 音质特征
wavlm-large-influency SEP28K+FluencyBank wavlm-large Yes 16 流畅/不流畅
wavlm-large-categorical-emotion MSP-Podcast wavlm-large No NA 8种情感+其他

Whisper-Large V3 模型

模型名称 数据来源 预训练模型 使用LoRa LoRa Rank Size 输出类别
whisper-large-v3-broader-accent 11个数据集 whisper-large v3 Yes 16 北美/英国/其他(3类)
whisper-large-v3-narrow-accent 11个数据集 whisper-large v3 Yes 16 16种口音
whisper-large-v3-voice-quality ParaSpeechCaps whisper-large v3 Yes 16 音质特征
whisper-large-v3-influency SEP28K+FluencyBank whisper-large v3 Yes 16 流畅/不流畅
whisper-large-v3-categorical-emotion MSP-Podcast whisper-large v3 Yes 16 8种情感+其他

应用场景

  1. 语音模型性能分析:用于分析不同特征下的语音模型性能。
  2. 语音生成任务自动评估工具:用于评估语音生成模型的表现。
  3. 生成合成说话风格提示:提供多样化的说话风格描述。

引用

如需使用该数据集或模型,请引用以下论文:

@article{feng2025vox, title={Vox-Profile: A Speech Foundation Model Benchmark for Characterizing Diverse Speaker and Speech Traits}, author={Feng, Tiantian and Lee, Jihwan and Xu, Anfeng and Lee, Yoonjeong and Lertpetchpun, Thanathai and Shi, Xuan and Wang, Helin and Thebaud, Thomas and Moro-Velazquez, Laureano and Byrd, Dani and others}, journal={arXiv preprint arXiv:2505.14648}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在语音计算领域,Vox-Profile数据集通过整合超过15个公开可用的语音数据集,构建了一个多维度的说话人和语音特征评估体系。该数据集采用严格的音频筛选标准,排除了时长不足3秒或超过15秒的片段,确保数据质量与计算效率的平衡。所有音频样本均经过统一处理,转换为16kHz单声道格式,并采用LoRa微调技术对WavLM-Large和Whisper-Large V3等预训练模型进行优化,形成覆盖静态特征(如年龄、性别、口音)和动态特征(如情感、流畅度)的完整评估框架。
使用方法
使用Vox-Profile需通过GitHub仓库获取模型资源,配置Python 3.8环境并安装依赖库。实际应用中,用户需将待分析音频预处理为15秒以内的16kHz单声道格式,随后调用预训练模型进行特征提取。数据集提供两类典型应用范式:直接调用封装好的模型接口获取分类概率,如口音识别模块输出16类地域口音的概率分布;或作为评估工具对语音生成任务进行多维度质量分析。所有模型均支持GPU加速,并附有详细的示例代码指导不同场景下的调用方法。
背景与挑战
背景概述
Vox-Profile数据集由Tiantian Feng等研究人员于2025年提出,旨在系统评估英语语音中多维度的说话人和语音特征。该数据集整合了超过15个公开数据集,涵盖静态特征(如说话人年龄、性别、口音和音质)和动态特征(如语音情感、流畅性和表现力)。作为语音基础模型的基准测试平台,Vox-Profile通过Whisper和WavLM等预训练模型,为语音技术研究提供了标准化评估框架,显著推动了语音合成、自动语音识别等领域的可解释性研究。
当前挑战
Vox-Profile面临的挑战主要体现在两方面:在领域问题层面,多维度语音特征的联合建模存在特征间相互干扰的问题,如口音分类与情感识别的耦合效应;在构建过程中,数据异质性导致标注体系对齐困难,11个源数据集的不同采集条件(朗读/自发/对话语音)需要复杂的归一化处理。此外,3-15秒的音频长度限制虽平衡了计算效率与预测可靠性,但可能损失长时语音的时序特征信息。
常用场景
经典使用场景
在语音技术研究领域,Vox-Profile数据集为系统评估英语语音中丰富的说话人和语音特征提供了标准化基准。该数据集通过整合15个公开数据集,构建了涵盖静态特征(如说话人年龄、性别、口音)和动态特征(如语音情感、流畅度)的多维度评估体系,特别适用于语音模型在多样化说话人特征下的性能分析与比较。其15秒音频片段的设计平衡了计算效率与特征提取可靠性,为语音识别、语音合成等任务提供了理想的测试平台。
解决学术问题
Vox-Profile有效解决了语音技术研究中缺乏系统性多维度评估基准的学术难题。通过统一标注标准和跨数据集整合,该数据集支持研究者探究语音模型在不同人口统计学特征(如地域口音、年龄分组)和语音状态(如情感波动、流畅度)下的性能差异。其实验证明,基于该数据集生成的标签能够复现使用真实标注得出的语音模型性能趋势,为缺乏人工标注的大规模研究提供了可行方案,显著降低了语音技术公平性评估的门槛。
实际应用
该数据集在语音技术产业化过程中展现出重要价值。作为自动化评估工具,Vox-Profile可对比不同语音合成模型在保留源说话人特征方面的性能差异,例如通过口音预测分数定量评估FreeVC与VALLE-X的发音特征迁移能力。在智能客服领域,其动态特征评估模块能够优化语音交互系统的情感响应适配上;在教育科技中,口音分类功能可辅助语言学习软件提供针对性发音矫正。
数据集最近研究
最新研究方向
在语音计算领域,Vox-Profile数据集作为首个系统评估英语说话人多维度声学特征的基准,近期研究聚焦于语音基础模型的泛化能力验证与跨任务迁移应用。该数据集通过整合15个公开语音库的静态与动态特征标签,为说话人年龄、口音、语音流畅度等特质分析提供了标准化评估框架,尤其推动了口音分类模型在低资源场景下的适配性研究。当前前沿探索体现在三个方面:基于WavLM和Whisper架构的轻量化适配器技术显著提升了多任务联合建模效率;语音合成质量评估中,该基准的自动标注系统与人工标注结果展现出高度一致性;在生成式语音任务中,其概率化特质预测为可控语音合成提供了细粒度风格控制维度。这些进展为语音技术向个性化、包容性方向发展提供了可量化的评估工具。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作