SynParaSpeech

Name: SynParaSpeech
Creator: 北京邮电大学人工智能学院, 中国科学院自动化研究所, 中国科学院自动化研究所
Published: 2025-09-18 21:32:27
License: 暂无描述

arXiv2025-09-18 更新2025-09-20 收录

下载链接：

https://arxiv.org/abs/2509.14946

下载链接

链接失效反馈

官方服务：

资源简介：

SynParaSpeech 是一个包含 6 种副语言类别（叹息、清嗓子、笑声、停顿、啧啧声、倒抽一口气）的大规模中文语音数据集，总时长为 118.75 小时，包含精确的时间戳标注。该数据集通过自动化框架生成，并应用于构建 SynParaSpeech 数据集，旨在通过更自然的副语言合成来提高语音生成的逼真度和互动性，并通过改善副语言事件检测来增强语音理解。

SynParaSpeech is a large-scale Mandarin Chinese speech dataset encompassing six paralinguistic categories: sighs, throat clearings, laughs, pauses, tongue clicks, and gasps. With a total duration of 118.75 hours, it includes precise timestamp annotations. Developed using an automated framework, this dataset aims to improve the realism and interactivity of speech generation via more natural paralinguistic synthesis, and enhance speech understanding by advancing paralinguistic event detection.

提供机构：

北京邮电大学人工智能学院, 中国科学院自动化研究所, 中国科学院自动化研究所

创建时间：

2025-09-18

原始信息汇总

SynParaSpeech 数据集概述

基本信息

标题: SynParaSpeech: Automated Synthesis of Paralinguistic Datasets for Speech Generation and Understanding
arXiv标识符: 2509.14946
提交日期: 2025年9月18日
学科分类: 音频与语音处理（eess.AS）、计算与语言（cs.CL）
ACM分类: I.2.7

作者信息

作者: Bingsong Bai, Qihang Lu, Wenbing Yang, Zihan Sun, YueRan Hou, Peilei Jia, Songbai Pu, Ruibo Fu, Yingming Gao, Ya Li, Jun Gao

数据集描述

内容: 副语言声音（如笑声和叹息）数据集，用于合成更真实和引人入胜的语音。
规模: 包含6个副语言类别，总计118.75小时的数据，并带有精确的时间戳。
来源: 全部源自自然对话语音。

技术贡献

方法: 提出了一种自动化框架，用于生成大规模副语言数据。
创新点: 引入了首个自动化构建大规模副语言数据集的方法。
应用:
- 通过更自然的副语言合成推进语音生成。
- 通过改进副语言事件检测增强语音理解。

可用性

数据集与音频样本: 可通过 https://arxiv.org/abs/2509.14946 获取。
论文状态: 已提交至ICASSP 2026。

相关链接

论文PDF: https://arxiv.org/pdf/2509.14946
DOI: https://doi.org/10.48550/arXiv.2509.14946

搜集汇总

数据集介绍

构建方式

在副语言语音数据构建领域，SynParaSpeech采用自动化框架整合多模态技术。首先通过Whisper Large V3、SenseVoice和Paraformer三个ASR模型进行多数投票生成句子级转录，结合语音活动检测（VAD）分割音频片段，并利用Stable Whisper验证时间戳精度。随后采用Deepseek Chat V3大语言模型自动插入六类副语言标签（如笑声、叹息等），再通过语音转换技术统一音色，最终将处理后的副语言音频与语义语音按时间戳融合，形成自然连贯的合成语音。

使用方法

该数据集主要应用于副语言语音合成与事件检测两大任务。在语音合成方向，可通过监督微调（SFT）适配CosyVoice2、F5-TTS等模型，并结合直接偏好优化（DPO）策略增强副语言表现力；在事件检测领域，支持基于上下文提示学习（in-context learning）的范式，通过向Qwen 2.5 Omni、Kimi Audio等模型注入1-7条示例样本，实现端到端的副语言事件识别与定位。使用时需注意合成任务中需保持原始语音与副语言片段的音色一致性，而检测任务需根据实验表明的5样本上下文配置以达到最优性能。

背景与挑战

背景概述

随着深度学习技术的飞速发展，语音合成与理解领域在语义内容处理方面取得显著突破，然而副语言现象如笑声、叹息等自然对话要素长期被忽视。2025年，北京邮电大学与Hello Group等机构联合推出SynParaSpeech数据集，旨在通过自动化框架构建大规模副语言标注资源，推动语音生成与理解技术的自然化与交互性提升。该数据集包含6类副语言事件、118.75小时精确时间戳标注的中文语音，其创新性在于首次实现副语言数据自动化合成，为多语言副语言研究提供可扩展范式。

当前挑战

副语言语音合成需解决自然对话中非语义事件的时序对齐与音色一致性难题，传统ASR标注方法存在类别不平衡与标注成本高昂的局限。SynParaSpeech构建过程中面临三重挑战：一是副语言事件与语义语音的无缝融合需克服音频质量与自然度平衡问题；二是多模型协同标注时需解决Whisper、Paraformer等ASR系统在短音频片段上的识别误差；三是自动化流程需通过人工验证确保副语言标签准确性、时间戳精确性及音频无失真，这对数据清洗与质量控机制提出极高要求。

常用场景

经典使用场景

在语音合成技术领域，SynParaSpeech数据集被广泛应用于提升副语言语音生成的逼真度与自然性。该数据集通过精确的时间戳标注和丰富的副语言类别，为TTS模型提供了高质量的监督信号，使得合成语音能够自然地融入笑声、叹息等非语义元素，显著增强了人机交互的情感表现力。

解决学术问题

该数据集有效解决了副语言研究中数据稀缺与标注不精确的核心难题。通过自动化合成框架，它提供了大规模、多类别且时间对齐的副语言样本，为副语言事件检测与生成任务提供了可靠基准，推动了语音理解与合成模型的协同发展。

实际应用

在实际应用中，SynParaSpeech为智能助手、虚拟人及娱乐媒体提供了情感化语音合成能力。其支持的副语言表达可增强对话系统的自然度，适用于客服机器人、有声读物生成等场景，提升用户体验的真实感与沉浸感。

数据集最近研究