five

VoxBox

收藏
github2025-04-11 更新2025-04-12 收录
下载链接:
https://github.com/SparkAudio/VoxBox
下载链接
链接失效反馈
官方服务:
更多采购需求
资源简介:
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。

VoxBox is a large-scale speech corpus constructed from diverse open-source datasets, designed for training text-to-speech (TTS) systems.
创建时间:
2025-04-09
原始信息汇总

VoxBox 数据集概述

数据集简介

VoxBox 是一个大规模语音语料库,专为训练文本到语音(TTS)系统而构建,整合了多种开源数据集。

数据集构成

中文数据集

数据来源 语言 语句数量 男性时长 (h) 女性时长 (h) 总时长 (h)
AISHELL-3 中文 88,035 16.01 69.61 85.62
CASIA 中文 857 0.25 0.2 0.44
Emilia-CN 中文 15,629,241 22,017.56 12,741.89 34,759.45
ESD 中文 16,101 6.69 7.68 14.37
HQ-Conversations 中文 50,982 35.77 64.23 100
M3ED 中文 253 0.04 0.06 0.1
MAGICDATA 中文 609,474 360.31 393.81 754.13
MER2023 中文 1,667 0.86 1.07 1.93
NCSSD-CL-CN 中文 98,628 53.83 59.21 113.04
NCSSD-RC-CN 中文 21,688 7.05 22.53 29.58
WenetSpeech4TTS 中文 8,856,480 7,504.19 4,264.3 11,768.49
总计 (中文) 25,373,406 30,002.56 17,624.59 47,627.15

英文数据集

数据来源 语言 语句数量 男性时长 (h) 女性时长 (h) 总时长 (h)
CREMA-D 英文 809 0.3 0.27 0.57
Dailytalk 英文 23,754 10.79 10.86 21.65
Emilia-EN 英文 8,303,103 13,724.76 6,573.22 20,297.98
EMNS 英文 918 0 1.49 1.49
EmoV-DB 英文 3,647 2.22 2.79 5
Expresso 英文 11,595 5.47 5.39 10.86
Gigaspeech 英文 6,619,339 4,310.19 2,885.66 7,195.85
Hi-Fi TTS 英文 323,911 133.31 158.38 291.68
IEMOCAP 英文 2,423 1.66 1.31 2.97
JL-Corpus 英文 893 0.26 0.26 0.52
Librispeech 英文 230,865 393.95 367.67 761.62
LibriTTS-R 英文 363,270 277.87 283.03 560.9
MEAD 英文 3,767 2.26 2.42 4.68
MELD 英文 5,100 2.14 1.94 4.09
MLS-English 英文 6,319,002 14,366.25 11,212.92 25,579.18
MSP-Podcast 英文 796 0.76 0.56 1.32
NCSSD-CL-EN 英文 62,107 36.84 32.93 69.77
NCSSD-RL-EN 英文 10,032 4.18 14.92 19.09
RAVDESS 英文 950 0.49 0.48 0.97
SAVEE 英文 286 0.15 0.15 0.31
TESS 英文 1,956 0 1.15 1.15
VCTK 英文 44,283 16.95 24.51 41.46
总计 (英文) 22,332,806 33,290.8 21,582.31 54,873.11

总体统计

数据 语句数量 男性时长 (h) 女性时长 (h) 总时长 (h)
总计 47,706,212 63,293.36 39,206.9 102,500.26

数据集结构

bash . ├── audios/ │ └── aishell-3/ # 音频文件(按子语料库组织) │ └── ... └── metadata/ ├── aishell-3.jsonl ├── casia.jsonl ├── commonvoice_cn.jsonl ├── ... └── wenetspeech4tts.jsonl # JSONL 元数据文件

元数据格式

每个 JSONL 文件中的每一行是一个 JSON 对象,详细描述一个音频样本。例如: json { "index": "VCTK_0000044280", "split": "train", "language": "en", "age": "Youth-Adult", "gender": "female", "emotion": "UNKNOWN", "pitch": 180.626, "pitch_std": 0.158, "speed": 4.2, "duration": 3.84, "speech_duration": 3.843, "syllable_num": 16, "text": "Clearly, the need for a personal loan is written in the stars.", "syllables": "K-L-IH1-R L-IY0 DH-AH0 N-IY1-D F-AO1 R-AH0 P-ER1 S-IH0 N-IH0-L L-OW1 N-IH1 Z-R-IH1 T-AH0 N-IH0-N DH-AH0 S-T-AA1-R-Z", "wav_path": "vctk/VCTK_0000044280.flac" }

下载方式

1️⃣ 下载完整数据集

bash git lfs install git clone https://huggingface.co/datasets/SparkAudio/voxbox

2️⃣ 下载特定子集

python from huggingface_hub import HfApi, hf_hub_download

target_subsets = [casia, cremad, emns] REPO_ID = "SparkAudio/voxbox" REPO_TYPE = "dataset"

api = HfApi() dataset_info = api.dataset_info(repo_id=REPO_ID) all_paths = [s.rfilename for s in dataset_info.siblings]

for subset in target_subsets: print(f" 🔽 Downloading subset: {subset}") metadata_path = f"metadata/{subset}.jsonl" if metadata_path in all_paths: print(f"📄 Metadata found: {metadata_path}") hf_hub_download( repo_id=REPO_ID, repo_type=REPO_TYPE, filename=metadata_path, local_dir="./voxbox_subset", local_dir_use_symlinks=False, ) else: print(f"⚠️ Metadata not found: {metadata_path}")

audio_tars = [f for f in all_paths if f.startswith(f"audios/{subset}/") and f.endswith(".tar.gz")]
if not audio_tars:
    print(f"⚠️ No audio files found for {subset}")
    continue

for tar_file in audio_tars:
    print(f"🎧 Downloading audio: {tar_file}")
    hf_hub_download(
        repo_id=REPO_ID,
        repo_type=REPO_TYPE,
        filename=tar_file,
        local_dir="./voxbox_subset",
        local_dir_use_symlinks=False,
    )

许可证

请参考每个子语料库的原始许可证。

引用

bibtex
@article{wang2025spark, title={Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens}, author={Wang, Xinsheng and Jiang, Mingqi and Ma, Ziyang and Zhang, Ziyu and Liu, Songxiang and Li, Linqin and Liang, Zheng and Zheng, Qixi and Wang, Rui and Feng, Xiaoqin and others}, journal={arXiv preprint arXiv:2503.01710}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
VoxBox数据集作为Spark-TTS框架的核心语料库,通过系统整合42个开源语音数据集构建而成,涵盖中英双语共计4770万条语音样本,总时长突破10万小时。其构建过程采用多维度标准化处理,对原始音频数据进行重采样、静音修剪和音量归一化,同时通过自动化流水线提取基频、语速等声学特征,并统一转换为JSONL格式的元数据文件,实现跨数据集的标准化管理。数据组织采用模块化架构,按子库分类存储音频文件,并保留原始数据集的分割策略以确保评估一致性。
使用方法
研究者可通过Hugging Face Hub的两种方式获取数据:使用git-lfs克隆完整5.82TB数据集,或通过Python API按需下载子集。典型工作流包括:首先加载目标子库的JSONL元数据文件,解析其中的音频路径和标注信息;继而通过wav_path字段定位压缩音频包,解压后与元数据建立映射关系。数据集内置的split字段支持快速构建训练/验证/测试集,而音节级转写信息特别适用于韵律建模研究。对于计算资源有限的场景,建议优先选用MAGICDATA、Hi-Fi TTS等中等规模子库进行原型验证。
背景与挑战
背景概述
VoxBox是由Spark-TTS团队构建的大规模语音语料库,旨在为文本到语音(TTS)系统提供多样化的训练数据。该数据集整合了多个开源语音数据集,涵盖了中文和英文两种语言,总时长超过10万小时,包含超过4700万条语音样本。VoxBox的构建不仅丰富了语音合成领域的数据资源,还为跨语言和多场景的语音研究提供了重要支持。其核心研究问题在于如何通过整合异构数据源,提升TTS系统的泛化能力和语音质量。该数据集的影响力体现在其广泛的数据覆盖和高质量的标注上,为语音合成、语音识别等领域的研究提供了坚实的基础。
当前挑战
VoxBox数据集在构建过程中面临多重挑战。首先,数据异构性是一个显著问题,不同子数据集的采样率、音频格式和标注标准存在差异,需要进行统一化处理。其次,数据规模庞大(超过5TB),存储和分发成为技术难点。此外,多语言数据的对齐与标注一致性也增加了构建复杂度。在应用层面,如何有效利用如此大规模的数据训练高效TTS模型,避免过拟合和计算资源浪费,是研究者需要解决的关键问题。最后,数据版权和伦理问题也需要谨慎处理,确保符合各子数据集的许可协议。
常用场景
经典使用场景
在语音合成技术的研究中,VoxBox数据集因其大规模、多语言和多样化的语音样本而成为训练文本到语音(TTS)系统的理想选择。该数据集整合了多个开源语音库,涵盖了中英文等多种语言,适用于开发高质量的语音合成模型。研究人员可以利用其丰富的语音样本和详细的元数据,优化模型的自然度和表现力。
解决学术问题
VoxBox数据集解决了语音合成领域中的多个关键问题,包括多语言语音合成的数据稀缺性、语音多样性的不足以及情感表达的局限性。通过整合多个高质量的子数据集,VoxBox为研究人员提供了丰富的语音样本和详细的元数据,支持开发更具表现力和自然度的TTS模型,推动了语音合成技术的进步。
实际应用
VoxBox数据集在实际应用中广泛用于智能语音助手、有声读物生成和语音翻译系统等领域。其多语言和多样化的语音样本使得开发者能够训练出适用于不同场景和用户需求的语音合成系统。例如,在智能客服中,VoxBox可以帮助生成更加自然和情感丰富的语音响应,提升用户体验。
数据集最近研究
最新研究方向
在语音合成领域,VoxBox数据集凭借其大规模、多语言特性及丰富的元数据标注,正推动多项前沿研究。当前研究热点聚焦于基于大语言模型的端到端语音合成系统优化,如Spark-TTS框架通过解耦语音令牌实现高效单流解码,该数据集提供的跨语种韵律特征(音高、语速标准差等)为多模态情感语音合成提供了关键支撑。其融合的CREMA-D、IEMOCAP等情感语音子集,正被用于探索细粒度情感迁移技术,而超过1万小时的汉语数据则助力方言语音合成与韵律建模的突破。数据集的结构化设计(音节级标注、静音修剪时长等)显著提升了语音与文本对齐算法的训练效率,相关成果已应用于智能客服、无障碍交互等场景。
以上内容由遇见数据集搜集并总结生成

社区讨论

【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作