CapSpeech

Name: CapSpeech
Creator: 约翰霍普金斯大学, 北京大学, 南加州大学, 香港中文大学, 麻省理工学院
Published: 2025-06-03 21:28:55
License: 暂无描述

arXiv2025-06-03 更新2025-06-06 收录

下载链接：

https://github.com/WangHelin1997/CapSpeech

下载链接

链接失效反馈

官方服务：

资源简介：

CapSpeech 是一个为风格描述的文本到语音合成（CapTTS）及其相关下游任务设计的新基准，包含超过1000万机器注释的音频-字幕对和近36万人工注释的音频-字幕对。该数据集涵盖了广泛的内在说话者特征和表达风格特征，来源于多个音频源，包括 Emilia、GigaSpeech、CommonVoice 等。此外，CapSpeech 还引入了两个新的数据集，分别用于 AgentTTS 和 CapTTS-SE 任务。该数据集旨在解决现有数据集缺乏统一和综合的风格描述框架的问题，并促进 CapTTS 系统的开发。

CapSpeech is a novel benchmark designed for style-conditioned text-to-speech synthesis (CapTTS) and its related downstream tasks, which contains over 10 million machine-annotated audio-caption pairs and nearly 360,000 human-annotated audio-caption pairs. This dataset covers a wide range of inherent speaker characteristics and expressive style traits, and is sourced from multiple audio corpora including Emilia, GigaSpeech, CommonVoice, among others. In addition, CapSpeech also introduces two new datasets dedicated to the AgentTTS and CapTTS-SE tasks respectively. This benchmark aims to address the issue that existing datasets lack a unified and comprehensive style description framework, and facilitate the development of CapTTS systems.

提供机构：

约翰霍普金斯大学, 北京大学, 南加州大学, 香港中文大学, 麻省理工学院

创建时间：

2025-06-03

搜集汇总

数据集介绍

构建方式

CapSpeech数据集的构建采用了多阶段、多模态的标注策略，通过整合来自14个公开语音语料库的原始数据，结合机器自动标注与专业人工标注的双重机制。在预训练阶段，利用信号处理工具和Mistral-7B大语言模型对1000万条语音样本自动生成风格描述标签；在下游任务阶段，由语音工程师对36万条样本进行细粒度人工标注，特别针对AgentTTS和CapTTS-SE任务新建了两个专业录音数据集。数据混合策略采用动态信噪比控制（-3dB至6dB）和强制对齐技术，确保语音与音效的自然融合。

特点

该数据集的核心特征体现在三个维度：规模上包含1049万条标注样本，是目前最大的风格描述语音数据集；多样性覆盖5种语音风格控制任务，支持年龄、性别、音色等7类固有特征和情感、语速等5类表达特征的组合描述；创新性首创音效事件标注体系，包含394种音效类型并支持插入/背景两种混合模式。数据质量通过专业录音设备采集、多阶段过滤（WER<25%、SNR>20dB）和交叉验证机制保障，人类标注者间一致率达0.82 Cohen's Kappa系数。

使用方法

使用CapSpeech需遵循任务分层架构：预训练阶段建议采用两阶段策略，先用ParaSpeechCaps数据初始化模型，再在1000万机器标注数据上微调；下游任务需根据具体场景选择对应子集，如情感合成推荐使用EARS和Expresso语料。技术实现上提供AR（自回归）和NAR（非自回归）两套基线模型接口，支持通过特殊标记（如<B></B>）控制音效插入位置。评估时需联合客观指标（Style-ACC、UTMOSv2）和主观MOS评分，其中音效任务需额外考核事件同步准确率。

背景与挑战

背景概述

CapSpeech数据集由约翰霍普金斯大学、北京大学、南加州大学等机构的研究团队于2025年推出，旨在解决风格标注语音合成（CapTTS）领域缺乏标准化、全面数据集的问题。该数据集包含超过1000万机器标注和36万人工标注的音频-文本对，覆盖语音风格、情感、口音等多种属性，并针对聊天代理和带音效语音合成等下游任务创建了专业录制的子集。作为目前规模最大、标注最全面的开放CapTTS数据集，CapSpeech通过统一多源语音数据的标注框架，显著提升了跨领域研究的可比性，推动了语音合成技术在虚拟助手、有声内容创作等场景的应用。

当前挑战

CapSpeech面临的核心挑战体现在两个方面：领域问题方面，现有语音合成系统难以准确捕捉自然语言描述中细微的风格差异（如'愤怒咆哮'与'愤怒尖叫'的区别），且在合成过程中保持音效与语音的协调性存在困难；数据构建方面，专业风格标注依赖昂贵的人工审核，音效插入点的自然性需要音频工程师精细调整，而跨数据集的口音、情感标签标准化处理也面临重大挑战。此外，评估环节缺乏可靠的自动指标，目前仍需依赖主观人工评分，这限制了模型迭代效率。

常用场景

经典使用场景

CapSpeech数据集在风格标注的文本到语音合成（CapTTS）领域具有广泛的应用场景。该数据集通过自然语言描述控制语音风格，支持多种任务如风格标注的文本到语音合成（CapTTS）、带音效的文本到语音合成（CapTTS-SE）、口音标注的文本到语音合成（AccCapTTS）、情感标注的文本到语音合成（EmoCapTTS）以及聊天代理的文本到语音合成（AgentTTS）。这些任务涵盖了从基本语音合成到复杂情感和音效合成的多样化需求，为研究者和开发者提供了一个全面的基准测试平台。

解决学术问题

CapSpeech数据集解决了当前风格标注的文本到语音合成研究中缺乏标准化和全面数据集的问题。通过提供超过1000万机器标注和36万人工标注的音频-描述对，该数据集显著提升了模型在多样语音风格下的合成能力。此外，CapSpeech填补了现有数据集在跨领域比较和下游任务应用上的空白，为开发高保真、高可懂度的语音合成系统提供了重要支持。

衍生相关工作

CapSpeech数据集衍生了一系列相关研究工作，包括基于自回归和非自回归模型的语音合成方法。这些工作不仅在基础任务上取得了显著进展，还推动了带音效合成、多情感控制等新方向的发展。例如，PromptTTS和Parler-TTS等模型在CapSpeech上的表现验证了该数据集在推动语音合成技术前沿中的关键作用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集