five

VoxBox|语音语料库数据集|文本到语音数据集

收藏
github2025-04-11 更新2025-04-12 收录
语音语料库
文本到语音
下载链接:
https://github.com/SparkAudio/VoxBox
下载链接
链接失效反馈
资源简介:
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
创建时间:
2025-04-09
原始信息汇总

VoxBox 数据集概述

数据集简介

VoxBox 是一个大规模语音语料库,专为训练文本到语音(TTS)系统而构建,整合了多种开源数据集。

数据集构成

中文数据集

数据来源 语言 语句数量 男性时长 (h) 女性时长 (h) 总时长 (h)
AISHELL-3 中文 88,035 16.01 69.61 85.62
CASIA 中文 857 0.25 0.2 0.44
Emilia-CN 中文 15,629,241 22,017.56 12,741.89 34,759.45
ESD 中文 16,101 6.69 7.68 14.37
HQ-Conversations 中文 50,982 35.77 64.23 100
M3ED 中文 253 0.04 0.06 0.1
MAGICDATA 中文 609,474 360.31 393.81 754.13
MER2023 中文 1,667 0.86 1.07 1.93
NCSSD-CL-CN 中文 98,628 53.83 59.21 113.04
NCSSD-RC-CN 中文 21,688 7.05 22.53 29.58
WenetSpeech4TTS 中文 8,856,480 7,504.19 4,264.3 11,768.49
总计 (中文) 25,373,406 30,002.56 17,624.59 47,627.15

英文数据集

数据来源 语言 语句数量 男性时长 (h) 女性时长 (h) 总时长 (h)
CREMA-D 英文 809 0.3 0.27 0.57
Dailytalk 英文 23,754 10.79 10.86 21.65
Emilia-EN 英文 8,303,103 13,724.76 6,573.22 20,297.98
EMNS 英文 918 0 1.49 1.49
EmoV-DB 英文 3,647 2.22 2.79 5
Expresso 英文 11,595 5.47 5.39 10.86
Gigaspeech 英文 6,619,339 4,310.19 2,885.66 7,195.85
Hi-Fi TTS 英文 323,911 133.31 158.38 291.68
IEMOCAP 英文 2,423 1.66 1.31 2.97
JL-Corpus 英文 893 0.26 0.26 0.52
Librispeech 英文 230,865 393.95 367.67 761.62
LibriTTS-R 英文 363,270 277.87 283.03 560.9
MEAD 英文 3,767 2.26 2.42 4.68
MELD 英文 5,100 2.14 1.94 4.09
MLS-English 英文 6,319,002 14,366.25 11,212.92 25,579.18
MSP-Podcast 英文 796 0.76 0.56 1.32
NCSSD-CL-EN 英文 62,107 36.84 32.93 69.77
NCSSD-RL-EN 英文 10,032 4.18 14.92 19.09
RAVDESS 英文 950 0.49 0.48 0.97
SAVEE 英文 286 0.15 0.15 0.31
TESS 英文 1,956 0 1.15 1.15
VCTK 英文 44,283 16.95 24.51 41.46
总计 (英文) 22,332,806 33,290.8 21,582.31 54,873.11

总体统计

数据 语句数量 男性时长 (h) 女性时长 (h) 总时长 (h)
总计 47,706,212 63,293.36 39,206.9 102,500.26

数据集结构

bash . ├── audios/ │ └── aishell-3/ # 音频文件(按子语料库组织) │ └── ... └── metadata/ ├── aishell-3.jsonl ├── casia.jsonl ├── commonvoice_cn.jsonl ├── ... └── wenetspeech4tts.jsonl # JSONL 元数据文件

元数据格式

每个 JSONL 文件中的每一行是一个 JSON 对象,详细描述一个音频样本。例如: json { "index": "VCTK_0000044280", "split": "train", "language": "en", "age": "Youth-Adult", "gender": "female", "emotion": "UNKNOWN", "pitch": 180.626, "pitch_std": 0.158, "speed": 4.2, "duration": 3.84, "speech_duration": 3.843, "syllable_num": 16, "text": "Clearly, the need for a personal loan is written in the stars.", "syllables": "K-L-IH1-R L-IY0 DH-AH0 N-IY1-D F-AO1 R-AH0 P-ER1 S-IH0 N-IH0-L L-OW1 N-IH1 Z-R-IH1 T-AH0 N-IH0-N DH-AH0 S-T-AA1-R-Z", "wav_path": "vctk/VCTK_0000044280.flac" }

下载方式

1️⃣ 下载完整数据集

bash git lfs install git clone https://huggingface.co/datasets/SparkAudio/voxbox

2️⃣ 下载特定子集

python from huggingface_hub import HfApi, hf_hub_download

target_subsets = [casia, cremad, emns] REPO_ID = "SparkAudio/voxbox" REPO_TYPE = "dataset"

api = HfApi() dataset_info = api.dataset_info(repo_id=REPO_ID) all_paths = [s.rfilename for s in dataset_info.siblings]

for subset in target_subsets: print(f" 🔽 Downloading subset: {subset}") metadata_path = f"metadata/{subset}.jsonl" if metadata_path in all_paths: print(f"📄 Metadata found: {metadata_path}") hf_hub_download( repo_id=REPO_ID, repo_type=REPO_TYPE, filename=metadata_path, local_dir="./voxbox_subset", local_dir_use_symlinks=False, ) else: print(f"⚠️ Metadata not found: {metadata_path}")

audio_tars = [f for f in all_paths if f.startswith(f"audios/{subset}/") and f.endswith(".tar.gz")]
if not audio_tars:
    print(f"⚠️ No audio files found for {subset}")
    continue

for tar_file in audio_tars:
    print(f"🎧 Downloading audio: {tar_file}")
    hf_hub_download(
        repo_id=REPO_ID,
        repo_type=REPO_TYPE,
        filename=tar_file,
        local_dir="./voxbox_subset",
        local_dir_use_symlinks=False,
    )

许可证

请参考每个子语料库的原始许可证。

引用

bibtex
@article{wang2025spark, title={Spark-TTS: An Efficient LLM-Based Text-to-Speech Model with Single-Stream Decoupled Speech Tokens}, author={Wang, Xinsheng and Jiang, Mingqi and Ma, Ziyang and Zhang, Ziyu and Liu, Songxiang and Li, Linqin and Liang, Zheng and Zheng, Qixi and Wang, Rui and Feng, Xiaoqin and others}, journal={arXiv preprint arXiv:2503.01710}, year={2025} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
VoxBox数据集作为Spark-TTS框架的核心语料库,通过系统整合42个开源语音数据集构建而成,涵盖中英双语共计4770万条语音样本,总时长突破10万小时。其构建过程采用多维度标准化处理,对原始音频数据进行重采样、静音修剪和音量归一化,同时通过自动化流水线提取基频、语速等声学特征,并统一转换为JSONL格式的元数据文件,实现跨数据集的标准化管理。数据组织采用模块化架构,按子库分类存储音频文件,并保留原始数据集的分割策略以确保评估一致性。
使用方法
研究者可通过Hugging Face Hub的两种方式获取数据:使用git-lfs克隆完整5.82TB数据集,或通过Python API按需下载子集。典型工作流包括:首先加载目标子库的JSONL元数据文件,解析其中的音频路径和标注信息;继而通过wav_path字段定位压缩音频包,解压后与元数据建立映射关系。数据集内置的split字段支持快速构建训练/验证/测试集,而音节级转写信息特别适用于韵律建模研究。对于计算资源有限的场景,建议优先选用MAGICDATA、Hi-Fi TTS等中等规模子库进行原型验证。
背景与挑战
背景概述
VoxBox是由Spark-TTS团队构建的大规模语音语料库,旨在为文本到语音(TTS)系统提供多样化的训练数据。该数据集整合了多个开源语音数据集,涵盖了中文和英文两种语言,总时长超过10万小时,包含超过4700万条语音样本。VoxBox的构建不仅丰富了语音合成领域的数据资源,还为跨语言和多场景的语音研究提供了重要支持。其核心研究问题在于如何通过整合异构数据源,提升TTS系统的泛化能力和语音质量。该数据集的影响力体现在其广泛的数据覆盖和高质量的标注上,为语音合成、语音识别等领域的研究提供了坚实的基础。
当前挑战
VoxBox数据集在构建过程中面临多重挑战。首先,数据异构性是一个显著问题,不同子数据集的采样率、音频格式和标注标准存在差异,需要进行统一化处理。其次,数据规模庞大(超过5TB),存储和分发成为技术难点。此外,多语言数据的对齐与标注一致性也增加了构建复杂度。在应用层面,如何有效利用如此大规模的数据训练高效TTS模型,避免过拟合和计算资源浪费,是研究者需要解决的关键问题。最后,数据版权和伦理问题也需要谨慎处理,确保符合各子数据集的许可协议。
常用场景
经典使用场景
在语音合成技术的研究中,VoxBox数据集因其大规模、多语言和多样化的语音样本而成为训练文本到语音(TTS)系统的理想选择。该数据集整合了多个开源语音库,涵盖了中英文等多种语言,适用于开发高质量的语音合成模型。研究人员可以利用其丰富的语音样本和详细的元数据,优化模型的自然度和表现力。
解决学术问题
VoxBox数据集解决了语音合成领域中的多个关键问题,包括多语言语音合成的数据稀缺性、语音多样性的不足以及情感表达的局限性。通过整合多个高质量的子数据集,VoxBox为研究人员提供了丰富的语音样本和详细的元数据,支持开发更具表现力和自然度的TTS模型,推动了语音合成技术的进步。
实际应用
VoxBox数据集在实际应用中广泛用于智能语音助手、有声读物生成和语音翻译系统等领域。其多语言和多样化的语音样本使得开发者能够训练出适用于不同场景和用户需求的语音合成系统。例如,在智能客服中,VoxBox可以帮助生成更加自然和情感丰富的语音响应,提升用户体验。
数据集最近研究
最新研究方向
在语音合成领域,VoxBox数据集凭借其大规模、多语言特性及丰富的元数据标注,正推动多项前沿研究。当前研究热点聚焦于基于大语言模型的端到端语音合成系统优化,如Spark-TTS框架通过解耦语音令牌实现高效单流解码,该数据集提供的跨语种韵律特征(音高、语速标准差等)为多模态情感语音合成提供了关键支撑。其融合的CREMA-D、IEMOCAP等情感语音子集,正被用于探索细粒度情感迁移技术,而超过1万小时的汉语数据则助力方言语音合成与韵律建模的突破。数据集的结构化设计(音节级标注、静音修剪时长等)显著提升了语音与文本对齐算法的训练效率,相关成果已应用于智能客服、无障碍交互等场景。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

TPTP

TPTP(Thousands of Problems for Theorem Provers)是一个包含大量逻辑问题的数据集,主要用于定理证明器的测试和评估。它包含了多种逻辑形式的问题,如一阶逻辑、高阶逻辑、命题逻辑等。

www.tptp.org 收录

PUZZLES

PUZZLES是由苏黎世联邦理工学院的研究团队基于Simon Tatham的便携式谜题集合开发的强化学习基准数据集,包含40种不同复杂度的逻辑谜题。这些谜题具有可调整的大小和难度,适用于评估强化学习代理的算法和逻辑推理能力。数据集的创建过程中,研究团队将原始C源代码扩展至Pygame库标准,并集成到Gymnasium框架API中,使得用户可以灵活调整谜题的难度和大小。PUZZLES主要应用于强化学习领域,旨在推动算法和逻辑推理在机器学习中的应用和发展。

arXiv 收录

Titanic Dataset

Titanic Data Analysis: A Journey into Passenger Profiles and Survival Dynamics

kaggle 收录