VoxBox|语音语料库数据集|文本到语音数据集
收藏VoxBox 数据集概述
数据集简介
VoxBox 是一个大规模语音语料库,专为训练文本到语音(TTS)系统而构建,整合了多种开源数据集。
数据集构成
中文数据集
数据来源 | 语言 | 语句数量 | 男性时长 (h) | 女性时长 (h) | 总时长 (h) |
---|---|---|---|---|---|
AISHELL-3 | 中文 | 88,035 | 16.01 | 69.61 | 85.62 |
CASIA | 中文 | 857 | 0.25 | 0.2 | 0.44 |
Emilia-CN | 中文 | 15,629,241 | 22,017.56 | 12,741.89 | 34,759.45 |
ESD | 中文 | 16,101 | 6.69 | 7.68 | 14.37 |
HQ-Conversations | 中文 | 50,982 | 35.77 | 64.23 | 100 |
M3ED | 中文 | 253 | 0.04 | 0.06 | 0.1 |
MAGICDATA | 中文 | 609,474 | 360.31 | 393.81 | 754.13 |
MER2023 | 中文 | 1,667 | 0.86 | 1.07 | 1.93 |
NCSSD-CL-CN | 中文 | 98,628 | 53.83 | 59.21 | 113.04 |
NCSSD-RC-CN | 中文 | 21,688 | 7.05 | 22.53 | 29.58 |
WenetSpeech4TTS | 中文 | 8,856,480 | 7,504.19 | 4,264.3 | 11,768.49 |
总计 (中文) | 25,373,406 | 30,002.56 | 17,624.59 | 47,627.15 |
英文数据集
数据来源 | 语言 | 语句数量 | 男性时长 (h) | 女性时长 (h) | 总时长 (h) |
---|---|---|---|---|---|
CREMA-D | 英文 | 809 | 0.3 | 0.27 | 0.57 |
Dailytalk | 英文 | 23,754 | 10.79 | 10.86 | 21.65 |
Emilia-EN | 英文 | 8,303,103 | 13,724.76 | 6,573.22 | 20,297.98 |
EMNS | 英文 | 918 | 0 | 1.49 | 1.49 |
EmoV-DB | 英文 | 3,647 | 2.22 | 2.79 | 5 |
Expresso | 英文 | 11,595 | 5.47 | 5.39 | 10.86 |
Gigaspeech | 英文 | 6,619,339 | 4,310.19 | 2,885.66 | 7,195.85 |
Hi-Fi TTS | 英文 | 323,911 | 133.31 | 158.38 | 291.68 |
IEMOCAP | 英文 | 2,423 | 1.66 | 1.31 | 2.97 |
JL-Corpus | 英文 | 893 | 0.26 | 0.26 | 0.52 |
Librispeech | 英文 | 230,865 | 393.95 | 367.67 | 761.62 |
LibriTTS-R | 英文 | 363,270 | 277.87 | 283.03 | 560.9 |
MEAD | 英文 | 3,767 | 2.26 | 2.42 | 4.68 |
MELD | 英文 | 5,100 | 2.14 | 1.94 | 4.09 |
MLS-English | 英文 | 6,319,002 | 14,366.25 | 11,212.92 | 25,579.18 |
MSP-Podcast | 英文 | 796 | 0.76 | 0.56 | 1.32 |
NCSSD-CL-EN | 英文 | 62,107 | 36.84 | 32.93 | 69.77 |
NCSSD-RL-EN | 英文 | 10,032 | 4.18 | 14.92 | 19.09 |
RAVDESS | 英文 | 950 | 0.49 | 0.48 | 0.97 |
SAVEE | 英文 | 286 | 0.15 | 0.15 | 0.31 |
TESS | 英文 | 1,956 | 0 | 1.15 | 1.15 |
VCTK | 英文 | 44,283 | 16.95 | 24.51 | 41.46 |
总计 (英文) | 22,332,806 | 33,290.8 | 21,582.31 | 54,873.11 |
总体统计
数据 | 语句数量 | 男性时长 (h) | 女性时长 (h) | 总时长 (h) |
---|---|---|---|---|
总计 | 47,706,212 | 63,293.36 | 39,206.9 | 102,500.26 |
数据集结构
bash . ├── audios/ │ └── aishell-3/ # 音频文件(按子语料库组织) │ └── ... └── metadata/ ├── aishell-3.jsonl ├── casia.jsonl ├── commonvoice_cn.jsonl ├── ... └── wenetspeech4tts.jsonl # JSONL 元数据文件
元数据格式
每个 JSONL 文件中的每一行是一个 JSON 对象,详细描述一个音频样本。例如: json { "index": "VCTK_0000044280", "split": "train", "language": "en", "age": "Youth-Adult", "gender": "female", "emotion": "UNKNOWN", "pitch": 180.626, "pitch_std": 0.158, "speed": 4.2, "duration": 3.84, "speech_duration": 3.843, "syllable_num": 16, "text": "Clearly, the need for a personal loan is written in the stars.", "syllables": "K-L-IH1-R L-IY0 DH-AH0 N-IY1-D F-AO1 R-AH0 P-ER1 S-IH0 N-IH0-L L-OW1 N-IH1 Z-R-IH1 T-AH0 N-IH0-N DH-AH0 S-T-AA1-R-Z", "wav_path": "vctk/VCTK_0000044280.flac" }
下载方式
1️⃣ 下载完整数据集
bash git lfs install git clone https://huggingface.co/datasets/SparkAudio/voxbox
2️⃣ 下载特定子集
python from huggingface_hub import HfApi, hf_hub_download
target_subsets = [casia, cremad, emns] REPO_ID = "SparkAudio/voxbox" REPO_TYPE = "dataset"
api = HfApi() dataset_info = api.dataset_info(repo_id=REPO_ID) all_paths = [s.rfilename for s in dataset_info.siblings]
for subset in target_subsets: print(f" 🔽 Downloading subset: {subset}") metadata_path = f"metadata/{subset}.jsonl" if metadata_path in all_paths: print(f"📄 Metadata found: {metadata_path}") hf_hub_download( repo_id=REPO_ID, repo_type=REPO_TYPE, filename=metadata_path, local_dir="./voxbox_subset", local_dir_use_symlinks=False, ) else: print(f"⚠️ Metadata not found: {metadata_path}")
audio_tars = [f for f in all_paths if f.startswith(f"audios/{subset}/") and f.endswith(".tar.gz")]
if not audio_tars:
print(f"⚠️ No audio files found for {subset}")
continue
for tar_file in audio_tars:
print(f"🎧 Downloading audio: {tar_file}")
hf_hub_download(
repo_id=REPO_ID,
repo_type=REPO_TYPE,
filename=tar_file,
local_dir="./voxbox_subset",
local_dir_use_symlinks=False,
)
许可证
请参考每个子语料库的原始许可证。
引用
bibtex
@article{wang2025spark,
title={Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens},
author={Wang, Xinsheng and Jiang, Mingqi and Ma, Ziyang and Zhang, Ziyu and Liu, Songxiang and Li, Linqin and Liang, Zheng and Zheng, Qixi and Wang, Rui and Feng, Xiaoqin and others},
journal={arXiv preprint arXiv:2503.01710},
year={2025}
}

光伏电站发电量预估数据
1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。
浙江省数据知识产权登记平台 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录
TPTP
TPTP(Thousands of Problems for Theorem Provers)是一个包含大量逻辑问题的数据集,主要用于定理证明器的测试和评估。它包含了多种逻辑形式的问题,如一阶逻辑、高阶逻辑、命题逻辑等。
www.tptp.org 收录
PUZZLES
PUZZLES是由苏黎世联邦理工学院的研究团队基于Simon Tatham的便携式谜题集合开发的强化学习基准数据集,包含40种不同复杂度的逻辑谜题。这些谜题具有可调整的大小和难度,适用于评估强化学习代理的算法和逻辑推理能力。数据集的创建过程中,研究团队将原始C源代码扩展至Pygame库标准,并集成到Gymnasium框架API中,使得用户可以灵活调整谜题的难度和大小。PUZZLES主要应用于强化学习领域,旨在推动算法和逻辑推理在机器学习中的应用和发展。
arXiv 收录
Titanic Dataset
Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics
kaggle 收录