CapSpeech
收藏github2025-06-05 更新2025-06-06 收录
下载链接:
https://github.com/WangHelin1997/CapSpeech
下载链接
链接失效反馈官方服务:
资源简介:
CapSpeech包含超过1000万机器标注的音频-字幕对和近36万人工标注的音频-字幕对。CapSpeech提供了一个新的基准,包括以下任务:1. CapTTS:风格字幕文本到语音;2. CapTTS-SE:带音效的文本到语音合成;3. AccCapTTS:口音字幕文本到语音;4. EmoCapTTS:情感字幕文本到语音;5. AgentTTS:聊天代理的文本到语音合成。
CapSpeech consists of over 10 million machine-annotated audio-subtitle pairs and nearly 360,000 human-annotated audio-subtitle pairs. CapSpeech provides a novel benchmark encompassing the following tasks: 1. CapTTS: Stylized Subtitle Text-to-Speech; 2. CapTTS-SE: Text-to-Speech Synthesis with Sound Effects; 3. AccCapTTS: Accented Subtitle Text-to-Speech; 4. EmoCapTTS: Emotional Subtitle Text-to-Speech; 5. AgentTTS: Text-to-Speech Synthesis for Chat Agents.
创建时间:
2025-06-05
原始信息汇总
CapSpeech 数据集概述
数据集简介
- 名称:CapSpeech
- 数据量:
- 超过1000万条机器标注的音频-字幕对
- 近36万条人工标注的音频-字幕对
- 主要应用:风格化字幕文本到语音合成(TTS)的下游应用
基准任务
- CapTTS:风格化字幕TTS
- CapTTS-SE:带音效的文本到语音合成
- AccCapTTS:口音字幕TTS
- EmoCapTTS:情感字幕TTS
- AgentTTS:聊天代理的文本到语音合成
使用方式
- 快速体验:
- 在线演示:https://huggingface.co/spaces/OpenSound/CapSpeech-TTS
- 本地部署:
- 安装与使用指南:docs/quick_use.md
开发资源
- 数据准备:docs/dataset.md
- 模型训练:docs/training.md
- 性能评估:capspeech/eval/README.md
主要贡献者
- Helin Wang(约翰霍普金斯大学)
- Jiarui Hai(约翰霍普金斯大学)
引用信息
bibtex @misc{wang2025capspeechenablingdownstreamapplications, title={CapSpeech: Enabling Downstream Applications in Style-Captioned Text-to-Speech}, author={Helin Wang and Jiarui Hai and Dading Chong and Karan Thakkar and Tiantian Feng and Dongchao Yang and Junhyeok Lee and Laureano Moro Velazquez and Jesus Villalba and Zengyi Qin and Shrikanth Narayanan and Mounya Elhiali and Najim Dehak}, year={2025}, eprint={2506.02863}, archivePrefix={arXiv}, primaryClass={eess.AS}, url={https://arxiv.org/abs/2506.02863}, }
许可协议
- 许可证:Creative Commons Attribution-NonCommercial 4.0 International License (CC BY-NC 4.0)
- 详情:LICENSE文件
致谢
基于以下项目实现:
- Parler-TTS
- F5-TTS
- SSR-Speech
- Data-Speech
- EzAudio
- Vox-Profile
搜集汇总
数据集介绍

构建方式
CapSpeech数据集通过多模态数据采集与标注技术构建,包含超过1000万条机器标注和36万条人工标注的音频-文本对。研究团队采用半自动化流程,先通过语音合成模型生成基础音频样本,再结合风格描述、情感标签等多维度元数据进行精细化标注。数据采集过程特别注重声学特征的多样性,覆盖不同口音、情感表达和特殊音效场景,为下游任务建立了全面的基准测试框架。
特点
该数据集的核心价值在于其丰富的多任务支持能力,不仅提供标准文本到语音转换任务数据,还创新性地整合了带风格描述的语音合成、音效增强合成、口音控制合成等细分场景。数据样本涵盖广泛的声学特征分布,包括但不限于情感韵律、地域口音差异和对话代理场景。所有音频均经过严格的音质筛选和标注校验,确保样本在信噪比、语音清晰度等关键指标上达到研究级标准。
使用方法
研究者可通过Hugging Face平台直接访问数据集,或通过官方提供的本地部署方案进行定制化开发。数据集支持端到端的语音合成模型训练流程,配套提供数据预处理脚本、基准模型架构和评估工具包。对于快速验证场景,用户可通过在线演示系统实时测试不同风格的语音合成效果。开发文档详细说明了如何针对特定任务(如情感语音生成或口音转换)进行数据子集的提取和模型微调。
背景与挑战
背景概述
CapSpeech数据集由约翰斯·霍普金斯大学的Helin Wang和Jiarai Hai等研究人员于2025年提出,旨在推动风格化文本转语音(TTS)技术的发展。该数据集包含超过1000万条机器标注和36万条人工标注的音频-文本对,为多模态语音合成研究提供了丰富的资源。CapSpeech不仅涵盖了传统TTS任务,还创新性地引入了带音效合成、口音标注、情感标注以及对话代理语音合成等细分方向,为语音合成领域的细粒度控制研究树立了新标杆。其跨模态对齐标注体系显著提升了生成语音的风格可控性,对智能交互、虚拟助手等应用场景具有重要价值。
当前挑战
在解决领域问题方面,CapSpeech面临如何实现细粒度语音风格控制的挑战,包括音效、口音、情感等多维属性的精准解耦与组合。构建过程中的主要困难体现在大规模跨模态数据对齐的复杂性,需平衡机器标注效率与人工标注质量;同时,语音风格表征的离散化标注体系设计需要克服主观评价与客观指标间的鸿沟。此外,数据多样性保障也面临发音人覆盖、语境丰富度、声学条件平衡等多重约束,这些挑战直接影响下游模型的泛化能力。
常用场景
经典使用场景
在语音合成领域,CapSpeech数据集以其丰富的音频-文本标注对为研究提供了重要支持。该数据集特别适用于风格化文本到语音(TTS)任务,能够帮助研究人员探索不同风格、情感和口音的语音合成效果。通过其多样化的标注数据,CapSpeech为语音合成系统的开发提供了全面的基准测试环境。
实际应用
在实际应用中,CapSpeech数据集为虚拟助手、有声读物和游戏配音等场景提供了高质量的语音合成支持。通过其风格化和情感化的语音生成能力,该数据集能够满足不同应用场景中对语音表现力的需求。例如,在虚拟助手中,它可以生成更具亲和力和个性化的语音,提升用户体验。
衍生相关工作
CapSpeech数据集衍生了一系列经典工作,包括基于风格化标注的语音合成模型(CapTTS)、带音效的语音合成(CapTTS-SE)以及情感化语音合成(EmoCapTTS)。这些工作不仅在学术界引起了广泛关注,还在工业界得到了实际应用,进一步推动了语音合成技术的发展。
以上内容由遇见数据集搜集并总结生成



