SynParaSpeech

github2025-09-20 更新2025-09-21 收录

下载链接：

https://github.com/ShawnPi233/SynParaSpeech

下载链接

链接失效反馈

官方服务：

资源简介：

SynParaSpeech是首个自动化合成框架，用于构建大规模副语言数据集，支持更真实的语音合成和语音理解。它通过生成高质量、与语音、文本和时间戳完全对齐的副语言声音（如笑声、叹息、清嗓声），解决了现有资源中的关键问题。数据集包含118.75小时的数据，涵盖6个细粒度副语言类别（叹息、清嗓、笑声、停顿、tsk、喘息），并具有毫秒级时间戳注释，适用于副语言文本到语音（TTS）和事件检测任务。

SynParaSpeech is the first automated synthesis framework for building large-scale paralinguistic datasets, enabling more realistic speech synthesis and speech understanding. It addresses critical issues in existing resources by generating high-quality paralinguistic sounds such as laughter, sighs, throat clearings that are fully aligned with speech, text and timestamps. The dataset contains 118.75 hours of data, covering 6 fine-grained paralinguistic categories including sighs, throat clearings, laughter, pauses, tsks and gasps, and is equipped with millisecond-level timestamp annotations, which is suitable for paralinguistic text-to-speech (TTS) and event detection tasks.

创建时间：

2025-09-11

原始信息汇总

SynParaSpeech 数据集概述

基本信息

名称：SynParaSpeech
语言：中文
数据总量：118.75小时
片段数量：79,986个
采样率：24 kHz
许可证：CC BY-NC-ND 4.0

核心特点

首创自动化合成框架：用于构建大规模副语言数据集，支持语音生成与理解。
副语言类别：覆盖6种细粒度类别（叹息、清嗓、笑声、停顿、啧声、喘气），分布均衡（9.36%–23.76%）。
标注信息：提供毫秒级时间戳，与语音和文本完全对齐。
合成方法：基于Whisper Large V3（语义编码）、CAM++（说话人嵌入）和SeedVC（零样本语音转换）的自动化集成。

应用能力

副语言文本到语音（TTS）

优化方法：支持监督微调（SFT）和直接偏好优化（DPO）。
性能提升：
- CosyVoice2：PMOS从1.88（基线）提升至3.46（DPO-Joint）。
- F5-TTS：PMOS从1.16（基线）提升至3.10（SFT），NMOS保持在4.16。

副语言事件检测

优化方法：通过提示调优增强多模态大语言模型（MLLM）的检测能力。
性能提升：
- Qwen 2.5 Omni：准确率从21.5%（无上下文）提升至47.3%（5样本上下文），宏观F1从18.9%提升至47.1%。
- Kimi Audio：准确率达到38.2%（5样本上下文），字符错误率（CER）降至11.11%。

数据构建流程

标注文本合成：通过3种ASR模型（Whisper Large V3、SenseVoice、Paraformer）多数投票生成时间戳文本，并使用Deepseek Chat V3插入副语言标签。
音频合成：通过SeedVC语音转换集成副语言音频与语音音频，保持音色一致性。
人工辅助验证：从自然度、副语言匹配度、音频质量和时间对齐度4个维度评估，保留高质量片段。

引用信息

bibtex @article{bai2025synparaspeech, title = {SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding}, author = {Bingsong Bai and Qihang Lu and Wenbing Yang and Zihan Sun and Yueran Hou and Peilei Jia and Songbai Pu and Ruibo Fu and Yingming Gao and Ya Li and Jun Gao}, journal = {arXiv preprint arXiv:2509.14946}, year = {2025} }

搜集汇总

数据集介绍

构建方式

在语音生成与理解领域，副语言数据的稀缺性长期制约着相关研究的进展。SynParaSpeech采用自动化合成框架，通过多阶段流程构建数据集：首先整合Whisper Large V3等三种ASR模型进行时间戳标注与多数投票，再利用Deepseek Chat V3插入副语言标签；随后通过SeedVC语音转换技术合成副语言音频，并与切片后的语音音频保持音色一致性；最后通过人工辅助验证从自然度、匹配度等四个维度筛选高质量样本，形成包含79,986条样本的精密数据集。

特点

该数据集涵盖叹息、清喉、笑声等六类精细划分的副语言现象，各类别分布均衡且符合自然对话规律。其核心特征体现在毫秒级时间戳标注与语音文本的全对齐，为副语言事件定位提供精准支持。数据集总时长达到118.75小时，采样率为24kHz，所有音频均保持高质量合成水准，既能满足副语言文本到语音转换的需求，又可服务于事件检测任务，为多模态语音研究提供全面支撑。

使用方法

研究人员可通过监督微调与直接偏好优化两种方式利用该数据集增强TTS模型性能，具体表现为CosyVoice2模型的副语言质量评分从1.88提升至3.46。在副语言事件检测任务中，采用5样本上下文提示调优可显著提升多模态大语言模型的识别准确率，例如Qwen 2.5 Omni的宏F1值从18.9%提升至47.1%。数据集支持端到端的模型训练与评估，为语音合成与理解研究提供标准化实验基准。

背景与挑战

背景概述

语音生成与理解领域长期面临副语言现象（如笑声、叹息、清嗓等）数据稀缺的瓶颈，传统数据集受限于人工标注成本与质量不均问题。SynParaSpeech由Bingsong Bai等研究人员于2025年提出，是全球首个自动化合成副语言数据的框架，通过多模态融合技术生成79,986条精确时间戳标注的中文语音-文本对，总时长118.75小时。该数据集覆盖六类精细副语言现象，其创新性体现在将语音合成与事件检测任务统一于同一数据范式，显著提升了生成语音的自然度与检测模型的准确率，为多模态人机交互研究提供了关键基础设施。

当前挑战

构建过程需攻克多模态对齐的核心难题：首先需解决语音与文本时序同步问题，通过Whisper Large V3等三重ASR模型多数投票机制确保时间戳精度；其次要维持音色一致性，采用SeedVC零样本语音转换技术实现副语言片段与主干语音的无缝融合。在领域应用层面，该数据集旨在突破副语言文本到语音合成中情感自然性不足的瓶颈，同时解决多模态大语言模型在副语言事件检测中准确率低下的问题，其自动化合成范式为高成本人工标注提供了可持续替代方案。

常用场景

经典使用场景

在语音技术研究领域，SynParaSpeech数据集主要应用于副语言语音合成与事件检测任务。该数据集通过自动化合成框架生成包含笑声、叹息、清喉声等六类副语言现象的语音-文本对齐数据，为研究者提供了大规模高质量的训练资源。其精确到毫秒级的时间戳标注使得模型能够学习副语言事件与语音信号的时序对应关系，显著提升了合成语音的表现力和检测任务的准确性。

衍生相关工作

该数据集的发布催生了多项创新性研究工作，特别是在语音合成与理解模型的优化方面。基于SynParaSpeech的监督微调（SFT）和直接偏好优化（DPO）方法显著提升了CosyVoice2和F5-TTS等模型的副语言生成质量。同时，采用提示调优的Qwen 2.5 Omni和Kimi Audio模型在副语言事件检测任务中取得了突破性进展。这些成果为后续研究提供了重要基准，推动了多模态语言处理技术向更细腻、更人性化的方向发展。

数据集最近研究