VoicePersona Dataset

github2025-07-30 更新2025-08-12 收录

下载链接：

https://github.com/PranavMishra17/VoicePersona-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

VoicePersona数据集是一个全面的语音角色数据集，用于语音合成中的角色一致性。它通过先进的音频-语言模型生成，包含15,082个语音样本，10,179个独特说话者，48.7小时的音频，以及702种不同的口音变化。

The VoicePersona Dataset is a comprehensive speech persona dataset dedicated to ensuring persona consistency in speech synthesis. It is generated via cutting-edge audio-language models, and encompasses 15,082 speech samples, 10,179 unique speakers, 48.7 hours of audio material, and 702 distinct accent variations.

创建时间：

2025-07-15

原始信息汇总

VoicePersona 数据集概述

📋 数据集简介

目的：为语音合成中的角色一致性提供训练基础
关联项目：VoiceForge（从纯文本描述生成角色语音的AI架构）
应用场景：
- 游戏开发者创建独特NPC
- 互动故事应用
- 内容创作者需要角色语音
- 语音合成研究人员

📊 数据集统计

总样本数：15,082个语音录音
独特说话者：10,179个
总时长：48.7小时
平均时长：11.6秒/样本
独特口音：702种变体

🗃️ 来源数据集

数据集	描述	样本数	链接
Laions Got Talent	情感语音合成	7,937	laion/laions_got_talent
GLOBE_V2	全球口音（52种口音×3性别）	3,146	MushanW/GLOBE_V2
AniSpeech	动漫语音合成	2,000	ShoukanLabs/AniSpeech
AnimeVox	动漫角色语音	1,999	taresh18/AnimeVox

🤖 使用模型

模型名称：Qwen2-Audio-7B-Instruct
特点：
- 70亿参数优化用于音频理解
- 支持语音聊天和音频分析
- 多语言能力（8+语言）

🎯 数据处理流程

提取语音特征：分析音高、音色、共振和说话模式
识别人口统计：估计性别、年龄范围和口音
分析个性：确定角色特征和适用角色
保持一致性：关注说话方式而非内容

📊 数据集结构

voicepersona_dataset/ ├── globe_v2/ ├── laions/ ├── animevox/ └── anispeech/

📈 详细统计

语言：8+种语言和52+种口音变体
领域：对话、情感、动漫和合成语音

人口统计分布

性别：
- 女性：9,448样本（62.6%）
- 男性：5,294样本（35.1%）
年龄组：
- 20多岁：11,481样本（76.1%）
- 青少年：1,950样本（12.9%）

数据质量

数据完整性：96.8%
有效音频文件：100%
平均描述长度：约500字符

🔧 系统要求

最低配置：
- GPU：6GB VRAM（RTX 3060+）
- RAM：16GB
- 存储：50GB空闲空间
推荐配置：
- GPU：12GB+ VRAM
- RAM：32GB
- 存储：100GB+ SSD

📄 许可

许可证：CC0 1.0 Universal
允许：商业使用、修改、分发、私人使用
禁止：担保或责任

搜集汇总

数据集介绍

构建方式

VoicePersona数据集通过整合多个开源语音数据集构建而成，包括Laions Got Talent、GLOBE_V2、AniSpeech和AnimeVox等，总计包含15,082个语音样本。采用阿里巴巴的Qwen2-Audio-7B-Instruct多模态音频语言模型进行深度分析，提取了包括音高、音色、共振等声学特征，同时生成详细的说话者人口统计信息和个性特征描述。数据集构建过程中注重保持原始音频质量，并通过标准化处理确保不同来源数据的一致性。

特点

该数据集最显著的特点是涵盖10,179个独特说话者和702种口音变体，总时长达到48.7小时。数据样本平均时长为11.6秒，包含8种以上语言和52种以上口音变体。数据集特别注重语音特征的详细标注，每段音频都附有约500字符的详细语音描述，包括说话风格、情感基调和角色印象等维度。此外，数据集在性别和年龄分布上保持相对平衡，为语音合成研究提供了丰富的多样性。

使用方法

数据集可通过Hugging Face平台直接获取，或通过GitHub仓库进行本地安装。使用前需配置Python 3.8+环境和相关依赖库。数据集提供多种处理选项，包括量化处理以降低VRAM需求，支持流式传输避免完整下载。研究人员可通过命令行工具快速筛选特定子集，如按数据集来源、说话者特征或口音类型进行查询。数据集与VoiceForge架构深度集成，可直接用于训练文本到语音的映射模型。

背景与挑战

背景概述

VoicePersona数据集由Pranav Mishra等人于2025年创建，旨在为语音合成领域提供详细的角色一致性建模基础。该数据集整合了Laions Got Talent、GLOBE_V2等四个开源语音资源，通过阿里巴巴Qwen2-Audio-7B-Instruct模型提取声纹特征、人口统计学属性和人格特质，形成包含15,082个样本的多维度语音档案。作为VoiceForge架构的核心训练数据，其创新性在于将纯文本描述与声学特征建立映射关系，为游戏开发、互动叙事等场景提供无需原始音频的角色语音生成方案，推动了语音合成技术从内容生成向风格建模的范式转变。

当前挑战

在领域问题层面，数据集需解决语音合成中角色风格漂移的核心难题，包括跨语种音色特征解耦、情感表达与声学参数的关联建模等复杂问题。构建过程中面临多源数据融合的挑战：原始数据集在采样率（16-48kHz）、元数据规范（12种标签体系）和语音质量（信噪比20-50dB）方面存在显著差异；Qwen2-Audio模型对非标准发音（如动漫腔调）的特征提取准确率仅为78.3%，且702种口音变体的平衡性受限于源数据分布。此外，11.6秒的平均时长对长时韵律建模构成约束，而性别比例（女性62.6%）和年龄段（76.1%为20代）的偏差需通过数据增强策略缓解。

常用场景

经典使用场景

在语音合成领域，VoicePersona Dataset为角色一致性研究提供了关键支持。该数据集通过整合多源语音样本，结合Qwen2-Audio-7B-Instruct模型生成的详细声纹特征描述，为研究者构建了一个包含音高、音色、共振等多维特征的标准化语料库。其典型应用场景包括训练VoiceForge等文本到语音生成系统，实现仅通过自然语言描述即可生成具有鲜明个性特征的虚拟角色语音。

衍生相关工作

该数据集已催生多项创新研究，包括Alibaba的Qwen音频多模态系统优化、基于人格特质的语音转换模型PersonaVC等。在VoiceForge框架中，其作为核心训练数据实现了文本到声纹的端到端映射。后续工作如EmoVoice将情感维度纳入特征空间，而AnimeSynth则专注于二次元语音合成，共同推动了角色语音生成技术的多元化发展。

数据集最近研究