VoxBox

github2025-04-11 更新2025-04-12 收录

语音语料库

文本到语音

数据链接：

https://github.com/SparkAudio/VoxBox 数据链接链接失效反馈

官方服务：

资源简介：

VoxBox是一个大规模语音语料库，由多样化的开源数据集构建而成，用于训练文本到语音（TTS）系统。

VoxBox is a large-scale speech corpus constructed from diverse open-source datasets, designed for training text-to-speech (TTS) systems.

创建时间：

2025-04-09

原始信息汇总

VoxBox 数据集概述

数据集简介

VoxBox 是一个大规模语音语料库，专为训练文本到语音（TTS）系统而构建，整合了多种开源数据集。

数据集构成

中文数据集

数据来源	语言	语句数量	男性时长 (h)	女性时长 (h)	总时长 (h)
AISHELL-3	中文	88,035	16.01	69.61	85.62
CASIA	中文	857	0.25	0.2	0.44
Emilia-CN	中文	15,629,241	22,017.56	12,741.89	34,759.45
ESD	中文	16,101	6.69	7.68	14.37
HQ-Conversations	中文	50,982	35.77	64.23	100
M3ED	中文	253	0.04	0.06	0.1
MAGICDATA	中文	609,474	360.31	393.81	754.13
MER2023	中文	1,667	0.86	1.07	1.93
NCSSD-CL-CN	中文	98,628	53.83	59.21	113.04
NCSSD-RC-CN	中文	21,688	7.05	22.53	29.58
WenetSpeech4TTS	中文	8,856,480	7,504.19	4,264.3	11,768.49
总计 (中文)		25,373,406	30,002.56	17,624.59	47,627.15

英文数据集

数据来源	语言	语句数量	男性时长 (h)	女性时长 (h)	总时长 (h)
CREMA-D	英文	809	0.3	0.27	0.57
Dailytalk	英文	23,754	10.79	10.86	21.65
Emilia-EN	英文	8,303,103	13,724.76	6,573.22	20,297.98
EMNS	英文	918	0	1.49	1.49
EmoV-DB	英文	3,647	2.22	2.79	5
Expresso	英文	11,595	5.47	5.39	10.86
Gigaspeech	英文	6,619,339	4,310.19	2,885.66	7,195.85
Hi-Fi TTS	英文	323,911	133.31	158.38	291.68
IEMOCAP	英文	2,423	1.66	1.31	2.97
JL-Corpus	英文	893	0.26	0.26	0.52
Librispeech	英文	230,865	393.95	367.67	761.62
LibriTTS-R	英文	363,270	277.87	283.03	560.9
MEAD	英文	3,767	2.26	2.42	4.68
MELD	英文	5,100	2.14	1.94	4.09
MLS-English	英文	6,319,002	14,366.25	11,212.92	25,579.18
MSP-Podcast	英文	796	0.76	0.56	1.32
NCSSD-CL-EN	英文	62,107	36.84	32.93	69.77
NCSSD-RL-EN	英文	10,032	4.18	14.92	19.09
RAVDESS	英文	950	0.49	0.48	0.97
SAVEE	英文	286	0.15	0.15	0.31
TESS	英文	1,956	0	1.15	1.15
VCTK	英文	44,283	16.95	24.51	41.46
总计 (英文)		22,332,806	33,290.8	21,582.31	54,873.11

总体统计

数据	语句数量	男性时长 (h)	女性时长 (h)	总时长 (h)
总计	47,706,212	63,293.36	39,206.9	102,500.26

数据集结构

bash . ├── audios/ │ └── aishell-3/ # 音频文件（按子语料库组织） │ └── ... └── metadata/ ├── aishell-3.jsonl ├── casia.jsonl ├── commonvoice_cn.jsonl ├── ... └── wenetspeech4tts.jsonl # JSONL 元数据文件

元数据格式

每个 JSONL 文件中的每一行是一个 JSON 对象，详细描述一个音频样本。例如： json { "index": "VCTK_0000044280", "split": "train", "language": "en", "age": "Youth-Adult", "gender": "female", "emotion": "UNKNOWN", "pitch": 180.626, "pitch_std": 0.158, "speed": 4.2, "duration": 3.84, "speech_duration": 3.843, "syllable_num": 16, "text": "Clearly, the need for a personal loan is written in the stars.", "syllables": "K-L-IH1-R L-IY0 DH-AH0 N-IY1-D F-AO1 R-AH0 P-ER1 S-IH0 N-IH0-L L-OW1 N-IH1 Z-R-IH1 T-AH0 N-IH0-N DH-AH0 S-T-AA1-R-Z", "wav_path": "vctk/VCTK_0000044280.flac" }

下载方式

1️⃣ 下载完整数据集

bash git lfs install git clone https://huggingface.co/datasets/SparkAudio/voxbox

2️⃣ 下载特定子集

python from huggingface_hub import HfApi, hf_hub_download

target_subsets = [casia, cremad, emns] REPO_ID = "SparkAudio/voxbox" REPO_TYPE = "dataset"

api = HfApi() dataset_info = api.dataset_info(repo_id=REPO_ID) all_paths = [s.rfilename for s in dataset_info.siblings]

for subset in target_subsets: print(f" 🔽 Downloading subset: {subset}") metadata_path = f"metadata/{subset}.jsonl" if metadata_path in all_paths: print(f"📄 Metadata found: {metadata_path}") hf_hub_download( repo_id=REPO_ID, repo_type=REPO_TYPE, filename=metadata_path, local_dir="./voxbox_subset", local_dir_use_symlinks=False, ) else: print(f"⚠️ Metadata not found: {metadata_path}")

audio_tars = [f for f in all_paths if f.startswith(f"audios/{subset}/") and f.endswith(".tar.gz")]
if not audio_tars:
    print(f"⚠️ No audio files found for {subset}")
    continue

for tar_file in audio_tars:
    print(f"🎧 Downloading audio: {tar_file}")
    hf_hub_download(
        repo_id=REPO_ID,
        repo_type=REPO_TYPE,
        filename=tar_file,
        local_dir="./voxbox_subset",
        local_dir_use_symlinks=False,
    )

许可证

请参考每个子语料库的原始许可证。

引用

bibtex
@article{wang2025spark, title={Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens}, author={Wang, Xinsheng and Jiang, Mingqi and Ma, Ziyang and Zhang, Ziyu and Liu, Songxiang and Li, Linqin and Liang, Zheng and Zheng, Qixi and Wang, Rui and Feng, Xiaoqin and others}, journal={arXiv preprint arXiv:2503.01710}, year={2025} }

搜集汇总

数据集介绍

构建方式

VoxBox数据集作为Spark-TTS框架的核心语料库，通过系统整合42个开源语音数据集构建而成，涵盖中英双语共计4770万条语音样本，总时长突破10万小时。其构建过程采用多维度标准化处理，对原始音频数据进行重采样、静音修剪和音量归一化，同时通过自动化流水线提取基频、语速等声学特征，并统一转换为JSONL格式的元数据文件，实现跨数据集的标准化管理。数据组织采用模块化架构，按子库分类存储音频文件，并保留原始数据集的分割策略以确保评估一致性。

使用方法

研究者可通过Hugging Face Hub的两种方式获取数据：使用git-lfs克隆完整5.82TB数据集，或通过Python API按需下载子集。典型工作流包括：首先加载目标子库的JSONL元数据文件，解析其中的音频路径和标注信息；继而通过wav_path字段定位压缩音频包，解压后与元数据建立映射关系。数据集内置的split字段支持快速构建训练/验证/测试集，而音节级转写信息特别适用于韵律建模研究。对于计算资源有限的场景，建议优先选用MAGICDATA、Hi-Fi TTS等中等规模子库进行原型验证。

背景与挑战

背景概述

VoxBox是由Spark-TTS团队构建的大规模语音语料库，旨在为文本到语音（TTS）系统提供多样化的训练数据。该数据集整合了多个开源语音数据集，涵盖了中文和英文两种语言，总时长超过10万小时，包含超过4700万条语音样本。VoxBox的构建不仅丰富了语音合成领域的数据资源，还为跨语言和多场景的语音研究提供了重要支持。其核心研究问题在于如何通过整合异构数据源，提升TTS系统的泛化能力和语音质量。该数据集的影响力体现在其广泛的数据覆盖和高质量的标注上，为语音合成、语音识别等领域的研究提供了坚实的基础。

当前挑战

VoxBox数据集在构建过程中面临多重挑战。首先，数据异构性是一个显著问题，不同子数据集的采样率、音频格式和标注标准存在差异，需要进行统一化处理。其次，数据规模庞大（超过5TB），存储和分发成为技术难点。此外，多语言数据的对齐与标注一致性也增加了构建复杂度。在应用层面，如何有效利用如此大规模的数据训练高效TTS模型，避免过拟合和计算资源浪费，是研究者需要解决的关键问题。最后，数据版权和伦理问题也需要谨慎处理，确保符合各子数据集的许可协议。

常用场景

经典使用场景

在语音合成技术的研究中，VoxBox数据集因其大规模、多语言和多样化的语音样本而成为训练文本到语音（TTS）系统的理想选择。该数据集整合了多个开源语音库，涵盖了中英文等多种语言，适用于开发高质量的语音合成模型。研究人员可以利用其丰富的语音样本和详细的元数据，优化模型的自然度和表现力。

解决学术问题

VoxBox数据集解决了语音合成领域中的多个关键问题，包括多语言语音合成的数据稀缺性、语音多样性的不足以及情感表达的局限性。通过整合多个高质量的子数据集，VoxBox为研究人员提供了丰富的语音样本和详细的元数据，支持开发更具表现力和自然度的TTS模型，推动了语音合成技术的进步。

实际应用

VoxBox数据集在实际应用中广泛用于智能语音助手、有声读物生成和语音翻译系统等领域。其多语言和多样化的语音样本使得开发者能够训练出适用于不同场景和用户需求的语音合成系统。例如，在智能客服中，VoxBox可以帮助生成更加自然和情感丰富的语音响应，提升用户体验。

数据集最近研究