【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72
VoxBox
收藏VoxBox 数据集概述
数据集简介
VoxBox 是一个大规模语音语料库,专为训练文本到语音(TTS)系统而构建,整合了多种开源数据集。
数据集构成
中文数据集
| 数据来源 | 语言 | 语句数量 | 男性时长 (h) | 女性时长 (h) | 总时长 (h) |
|---|---|---|---|---|---|
| AISHELL-3 | 中文 | 88,035 | 16.01 | 69.61 | 85.62 |
| CASIA | 中文 | 857 | 0.25 | 0.2 | 0.44 |
| Emilia-CN | 中文 | 15,629,241 | 22,017.56 | 12,741.89 | 34,759.45 |
| ESD | 中文 | 16,101 | 6.69 | 7.68 | 14.37 |
| HQ-Conversations | 中文 | 50,982 | 35.77 | 64.23 | 100 |
| M3ED | 中文 | 253 | 0.04 | 0.06 | 0.1 |
| MAGICDATA | 中文 | 609,474 | 360.31 | 393.81 | 754.13 |
| MER2023 | 中文 | 1,667 | 0.86 | 1.07 | 1.93 |
| NCSSD-CL-CN | 中文 | 98,628 | 53.83 | 59.21 | 113.04 |
| NCSSD-RC-CN | 中文 | 21,688 | 7.05 | 22.53 | 29.58 |
| WenetSpeech4TTS | 中文 | 8,856,480 | 7,504.19 | 4,264.3 | 11,768.49 |
| 总计 (中文) | 25,373,406 | 30,002.56 | 17,624.59 | 47,627.15 |
英文数据集
| 数据来源 | 语言 | 语句数量 | 男性时长 (h) | 女性时长 (h) | 总时长 (h) |
|---|---|---|---|---|---|
| CREMA-D | 英文 | 809 | 0.3 | 0.27 | 0.57 |
| Dailytalk | 英文 | 23,754 | 10.79 | 10.86 | 21.65 |
| Emilia-EN | 英文 | 8,303,103 | 13,724.76 | 6,573.22 | 20,297.98 |
| EMNS | 英文 | 918 | 0 | 1.49 | 1.49 |
| EmoV-DB | 英文 | 3,647 | 2.22 | 2.79 | 5 |
| Expresso | 英文 | 11,595 | 5.47 | 5.39 | 10.86 |
| Gigaspeech | 英文 | 6,619,339 | 4,310.19 | 2,885.66 | 7,195.85 |
| Hi-Fi TTS | 英文 | 323,911 | 133.31 | 158.38 | 291.68 |
| IEMOCAP | 英文 | 2,423 | 1.66 | 1.31 | 2.97 |
| JL-Corpus | 英文 | 893 | 0.26 | 0.26 | 0.52 |
| Librispeech | 英文 | 230,865 | 393.95 | 367.67 | 761.62 |
| LibriTTS-R | 英文 | 363,270 | 277.87 | 283.03 | 560.9 |
| MEAD | 英文 | 3,767 | 2.26 | 2.42 | 4.68 |
| MELD | 英文 | 5,100 | 2.14 | 1.94 | 4.09 |
| MLS-English | 英文 | 6,319,002 | 14,366.25 | 11,212.92 | 25,579.18 |
| MSP-Podcast | 英文 | 796 | 0.76 | 0.56 | 1.32 |
| NCSSD-CL-EN | 英文 | 62,107 | 36.84 | 32.93 | 69.77 |
| NCSSD-RL-EN | 英文 | 10,032 | 4.18 | 14.92 | 19.09 |
| RAVDESS | 英文 | 950 | 0.49 | 0.48 | 0.97 |
| SAVEE | 英文 | 286 | 0.15 | 0.15 | 0.31 |
| TESS | 英文 | 1,956 | 0 | 1.15 | 1.15 |
| VCTK | 英文 | 44,283 | 16.95 | 24.51 | 41.46 |
| 总计 (英文) | 22,332,806 | 33,290.8 | 21,582.31 | 54,873.11 |
总体统计
| 数据 | 语句数量 | 男性时长 (h) | 女性时长 (h) | 总时长 (h) |
|---|---|---|---|---|
| 总计 | 47,706,212 | 63,293.36 | 39,206.9 | 102,500.26 |
数据集结构
bash . ├── audios/ │ └── aishell-3/ # 音频文件(按子语料库组织) │ └── ... └── metadata/ ├── aishell-3.jsonl ├── casia.jsonl ├── commonvoice_cn.jsonl ├── ... └── wenetspeech4tts.jsonl # JSONL 元数据文件
元数据格式
每个 JSONL 文件中的每一行是一个 JSON 对象,详细描述一个音频样本。例如: json { "index": "VCTK_0000044280", "split": "train", "language": "en", "age": "Youth-Adult", "gender": "female", "emotion": "UNKNOWN", "pitch": 180.626, "pitch_std": 0.158, "speed": 4.2, "duration": 3.84, "speech_duration": 3.843, "syllable_num": 16, "text": "Clearly, the need for a personal loan is written in the stars.", "syllables": "K-L-IH1-R L-IY0 DH-AH0 N-IY1-D F-AO1 R-AH0 P-ER1 S-IH0 N-IH0-L L-OW1 N-IH1 Z-R-IH1 T-AH0 N-IH0-N DH-AH0 S-T-AA1-R-Z", "wav_path": "vctk/VCTK_0000044280.flac" }
下载方式
1️⃣ 下载完整数据集
bash git lfs install git clone https://huggingface.co/datasets/SparkAudio/voxbox
2️⃣ 下载特定子集
python from huggingface_hub import HfApi, hf_hub_download
target_subsets = [casia, cremad, emns] REPO_ID = "SparkAudio/voxbox" REPO_TYPE = "dataset"
api = HfApi() dataset_info = api.dataset_info(repo_id=REPO_ID) all_paths = [s.rfilename for s in dataset_info.siblings]
for subset in target_subsets: print(f" 🔽 Downloading subset: {subset}") metadata_path = f"metadata/{subset}.jsonl" if metadata_path in all_paths: print(f"📄 Metadata found: {metadata_path}") hf_hub_download( repo_id=REPO_ID, repo_type=REPO_TYPE, filename=metadata_path, local_dir="./voxbox_subset", local_dir_use_symlinks=False, ) else: print(f"⚠️ Metadata not found: {metadata_path}")
audio_tars = [f for f in all_paths if f.startswith(f"audios/{subset}/") and f.endswith(".tar.gz")]
if not audio_tars:
print(f"⚠️ No audio files found for {subset}")
continue
for tar_file in audio_tars:
print(f"🎧 Downloading audio: {tar_file}")
hf_hub_download(
repo_id=REPO_ID,
repo_type=REPO_TYPE,
filename=tar_file,
local_dir="./voxbox_subset",
local_dir_use_symlinks=False,
)
许可证
请参考每个子语料库的原始许可证。
引用
bibtex
@article{wang2025spark,
title={Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens},
author={Wang, Xinsheng and Jiang, Mingqi and Ma, Ziyang and Zhang, Ziyu and Liu, Songxiang and Li, Linqin and Liang, Zheng and Zheng, Qixi and Wang, Rui and Feng, Xiaoqin and others},
journal={arXiv preprint arXiv:2503.01710},
year={2025}
}




