CapSpeech

Hugging Face2025-06-01 更新2025-06-02 收录

下载链接：

https://huggingface.co/datasets/OpenSound/CapSpeech

下载链接

链接失效反馈

官方服务：

资源简介：

CapSpeech是一个用于风格字幕文本到语音（CapTTS）任务的新基准，包括具有声音效果的CapTTS合成（CapTTS-SE）、口音字幕TTS（AccCapTTS）、情感字幕TTS（EmoCapTTS）和聊天代理的文本到语音合成（AgentTTS）。CapSpeech包含超过1000万个机器标注的音频字幕对和近36万个人工标注的音频字幕对。为了增强基准对现实场景的覆盖范围，还特别设计了3个新的语音数据集用于CapTTS-SE和AgentTTS任务。

创建时间：

2025-05-20

原始信息汇总

CapSpeech 数据集概述

数据集基本信息

许可证: CC BY-NC 4.0
语言: 英语 (en)
任务类别: 文本到语音 (text-to-speech)
规模分类: 10M < n < 100M
下载大小: 4,311,111,919 字节
数据集大小: 10,089,113,518 字节

数据集结构

特征

audio_path: 字符串，音频文件的相对路径
text: 字符串，音频文件的转录文本
source: 字符串，音频来源数据集
speech_duration: 浮点数，音频时长
caption: 字符串，音频的风格描述

数据分片

训练集 (train_PT): 10,038,677 个样本，4,896,778,095 字节
验证集 (validation_PT): 7,894 个样本，3,818,478 字节
测试集 (test_PT): 7,959 个样本，3,822,419 字节
训练集 (train_PT_CapTTS): 9,048,803 个样本，4,422,096,440 字节
验证集 (validation_PT_CapTTS): 2,131 个样本，1,089,269 字节
测试集 (test_PT_CapTTS): 2,800 个样本，1,367,929 字节
训练集 (train_PT_SEDB): 989,874 个样本，474,681,655 字节
验证集 (validation_PT_SEDB): 5,763 个样本，2,729,209 字节
测试集 (test_PT_SEDB): 5,159 个样本，2,454,490 字节
训练集 (train_PT_SEDB_HQ): 187,108 个样本，88,862,950 字节
验证集 (validation_PT_SEDB_HQ): 5,599 个样本，2,618,131 字节
测试集 (test_PT_SEDB_HQ): 5,068 个样本，2,381,899 字节
训练集 (train_SFT_CapTTS): 326,733 个样本，111,876,605 字节
验证集 (validation_SFT_CapTTS): 17,998 个样本，6,472,000 字节
测试集 (test_SFT_CapTTS): 20,056 个样本，7,343,819 字节
训练集 (train_SFT_EmoCapTTS): 26,428 个样本，10,273,324 字节
验证集 (validation_SFT_EmoCapTTS): 1,800 个样本，647,415 字节
测试集 (test_SFT_EmoCapTTS): 1,937 个样本，671,889 字节
训练集 (train_SFT_AccCapTTS): 113,197 个样本，37,680,186 字节
验证集 (validation_SFT_AccCapTTS): 10,599 个样本，3,926,055 字节
测试集 (test_SFT_AccCapTTS): 13,051 个样本，4,939,243 字节
训练集 (train_AgentDB): 9,625 个样本，2,026,176 字节
测试集 (test_AgentDB): 500 个样本，104,974 字节
训练集 (train_SEDB): 500 个样本，218,077 字节
测试集 (test_SEDB): 496 个样本，232,791 字节

数据集描述

CapSpeech 是一个用于风格描述文本到语音 (CapTTS) 任务的新基准，包括带有音效的风格描述文本到语音合成 (CapTTS-SE)、口音描述文本到语音 (AccCapTTS)、情感描述文本到语音 (EmoCapTTS) 和聊天代理文本到语音 (AgentTTS)。

数据来源

PT 阶段数据: Emilia-EN, GigaSpeech, CommonVoice, MLS-English, CapSpeech-PT-SEDB
SFT 阶段数据: LibriTTS-R, VoxCeleb, VoxCeleb2, EARS, Expresso, VCTK
AgentTTS 数据: CapSpeech-AgentDB
CapTTS-SE 数据: CapSpeech-SEDB

使用示例

python from datasets import load_dataset

加载整个数据集

dataset = load_dataset("OpenSound/CapSpeech")

加载特定分片

train_pt = load_dataset("OpenSound/CapSpeech", split="train_PT") test_agentdb = load_dataset("OpenSound/CapSpeech", split="test_AgentDB")

查看单个样本

example = train_pt[0] print(example)

引用

如需使用此数据集，请引用相关论文（引用格式待补充）。

搜集汇总

数据集介绍

构建方式

CapSpeech数据集作为风格化文本转语音（CapTTS）研究领域的重要基准，其构建过程体现了多源数据融合与精细化标注的特点。该数据集整合了来自Emilia-EN、GigaSpeech、CommonVoice等十余个权威语音数据库的素材，通过机器自动标注与人工校验相结合的方式，构建了超过1000万条音频-文本-风格描述三元组。特别值得注意的是，研究团队专门为CapTTS-SE和AgentTTS任务创建了三个新型语音子集，通过分层抽样策略确保数据覆盖真实场景的多样性。数据预处理阶段采用统一的音频标准化流程，并对语音持续时间、信噪比等关键指标进行严格质量控制。

特点

该数据集最显著的特征在于其多维度标注体系和任务导向的设计理念。除了常规的语音文本转录外，每条数据均包含精细的风格描述标签（caption），涵盖情感表达、口音特征、环境音效等语义维度。数据规模达到10M<n<100M级别，包含PT预训练和SFT微调两个阶段的专用子集，其中36万条数据经过专业人工标注。各子集根据应用场景进行针对性优化，如CapTTS-SE子集强调声音效果与文本的关联，EmoCapTTS子集侧重情感表达的细粒度标注。这种模块化设计使数据集能灵活支持从基础语音合成到复杂风格迁移等多种下游任务。

使用方法

使用者可通过HuggingFace数据集库直接加载该资源，支持整体加载或按任务需求选择特定子集。典型调用方式包括加载完整数据集进行预训练，或单独调用SFT阶段的EmoCapTTS等子集进行微调实验。数据条目以结构化字典形式呈现，包含音频路径、文本、风格描述等字段，需注意将相对路径映射至本地存储系统。为保障研究可复现性，建议严格遵循官方提供的训练/验证/测试划分方案，并参考标注文档理解各字段语义。对于计算资源有限的研究者，可优先使用经过质量筛选的HQ子集，或通过speech_duration字段过滤过短样本。

背景与挑战

背景概述

CapSpeech数据集是专为风格化字幕文本转语音（CapTTS）任务设计的新基准，由Wang Helin等研究人员开发，旨在推动语音合成技术的多样化应用。该数据集整合了超过1000万条机器标注和36万条人工标注的音频-字幕对，覆盖了风格化字幕语音合成（CapTTS-SE）、口音字幕语音合成（AccCapTTS）、情感字幕语音合成（EmoCapTTS）以及聊天代理语音合成（AgentTTS）等多个子任务。其构建基于多个知名语音数据集，如GigaSpeech、CommonVoice和LibriTTS-R等，显著提升了语音合成领域的数据多样性和任务适应性。

当前挑战

CapSpeech数据集面临的挑战主要体现在两个方面：领域问题的复杂性与数据构建的技术难度。在领域问题方面，风格化字幕语音合成需要精确捕捉语音的多样化风格特征，包括情感、口音及环境音效等，这对模型的细粒度建模能力提出了极高要求。数据构建过程中，如何确保机器标注的准确性与人工标注的一致性成为关键难题，尤其在处理多源异构数据时，需解决音频质量参差不齐、标注标准不统一等问题。此外，数据规模的庞大性也为存储、处理及计算资源带来了显著压力。

常用场景

经典使用场景

在语音合成领域，CapSpeech数据集被广泛应用于风格化语音生成任务。其核心价值在于提供了超过1000万条机器标注和36万条人工标注的音频-文本对，特别适用于训练具有风格描述能力的文本转语音模型。数据集涵盖多种风格维度，包括情感、口音和音效等，为研究者探索多模态语音生成提供了丰富素材。

实际应用

在实际应用中，CapSpeech支撑了智能客服、有声读物生成等场景的语音定制需求。基于该数据集训练的模型能够根据文本描述自动生成带有特定情感色彩或音效的语音，显著提升了虚拟助手的交互体验。在游戏和影视配音领域，其音效标注数据为自动化后期制作提供了新的技术路径。

衍生相关工作

围绕该数据集已衍生出CapTTS、EmoCapTTS等多个创新性工作。这些研究在ICASSP等顶级会议上提出了基于风格解耦的语音合成框架，推动了可控语音生成技术的发展。部分工作进一步探索了跨语言风格迁移，扩展了数据集的国际影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集