SynParaSpeech
收藏arXiv2025-09-21 更新2025-11-21 收录
下载链接:
https://huggingface.co/datasets/shawnpi/SynParaSpeech
下载链接
链接失效反馈官方服务:
资源简介:
SynParaSpeech 是一个包含 6 个副语言类别,总时长为 118.75 小时的中文语音数据集。该数据集由自然对话语音生成,包含精确的时间戳和副语言标签。SynParaSpeech 数据集通过引入第一个自动构建大规模副语言数据集的方法,并发布 SynParaSpeech 语料库,推动了语音生成的发展,并通过改善副语言事件检测来增强语音理解。
SynParaSpeech is a Chinese speech dataset encompassing 6 paralinguistic categories with a total duration of 118.75 hours. This dataset is compiled from natural conversational speech, and includes precise timestamps and paralinguistic labels. By introducing the first automated method for constructing large-scale paralinguistic datasets and releasing the SynParaSpeech corpus, this work advances the development of speech generation and enhances speech understanding by improving paralinguistic event detection.
提供机构:
北京邮电大学人工智能学院, 中国科学院自动化研究所, 哈喽集团, 中国科学院自动化研究所, 中国科学院自动化研究所
创建时间:
2025-09-18
搜集汇总
数据集介绍

构建方式
在语音合成技术日益成熟的背景下,SynParaSpeech数据集通过自动化流程构建而成。该流程首先利用多种自动语音识别模型对自然对话语音进行转录,结合语音活动检测技术分割音频片段,并通过编辑距离验证确保时间戳的精确性。随后,借助大型语言模型自动插入六类副语言标签,包括笑声和叹息等。音频合成阶段采用语音转换技术将副语言音频与语义语音片段融合,最终通过人工辅助验证确保数据的自然度与质量。
特点
作为面向副语言研究的语音数据集,SynParaSpeech具备显著的全面性与精确性。数据集涵盖叹息、清喉、笑声等六类副语言事件,总时长达到118.75小时,所有数据均源自真实对话场景。其时间戳标注精度达到毫秒级,且各类别数据分布均衡,最高占比类别与最低占比类别差异控制在合理范围内。这种基于自然场景的数据分布特性,为副语言事件建模提供了真实可靠的训练基础。
使用方法
该数据集可广泛应用于语音生成与理解领域。在语音合成任务中,通过监督微调或直接偏好优化方法,能够显著提升文本转语音模型对副语言特征的建模能力。对于语音理解任务,利用数据集中带有时序标注的副语言事件,可通过提示学习策略增强多模态大语言模型的副语言事件检测性能。实验表明,结合适量上下文示例的提示调优能有效平衡模型感知与推理能力。
背景与挑战
背景概述
随着深度学习技术在语音合成领域的迅猛发展,文本转语音和语音语言模型已能生成高质量语音,但传统方法多聚焦于语义内容,忽略了副语言声音在自然对话中的关键作用。副语言声音如笑声和叹息能够显著增强语音交互的自然度与真实感,然而现有研究常受限于专有数据集,公开资源则存在语音不完整、时间戳不准确及现实相关性不足等问题。为应对这些挑战,北京邮电大学与Hello Group等机构的研究团队于2025年提出了SynParaSpeech数据集,该数据集通过自动化框架构建,涵盖6种副语言类别,总时长118.75小时,并配备精确时间戳,旨在推动副语言合成与事件检测研究,为语音生成与理解领域提供重要资源支撑。
当前挑战
在副语言语音研究领域,核心挑战在于如何精准合成兼具自然度与情感表现力的语音,同时实现副语言事件的准确定位与分类。现有公开数据集如AudioSet和Switchboard虽涵盖部分副语言事件,但普遍存在语音缺失、时间戳不精确或类别覆盖有限等问题,限制了模型在真实场景中的应用。SynParaSpeech在构建过程中面临多重技术难题:首先需解决语音与副语言音频的时序对齐问题,确保笑声等事件在文本中的插入位置与音频流无缝衔接;其次,通过语音活动检测与多模型投票机制生成精确时间戳时,需克服短音频片段识别错误率高的障碍;此外,保持副语言事件与主语音的音色一致性要求高效的声学转换技术,而自动化流程的可靠性最终依赖人工验证来保障自然度与质量。
常用场景
经典使用场景
在语音合成研究领域,SynParaSpeech数据集主要应用于副语言语音生成与理解任务。该数据集通过自动化合成框架构建,包含6种副语言类别共计118.75小时的精确时间戳标注数据,为语音合成模型提供了丰富的副语言表达样本。研究人员利用该数据集训练文本转语音系统,使其能够生成包含笑声、叹息等自然副语言特征的语音,显著提升了合成语音的真实感和情感表现力。
解决学术问题
该数据集有效解决了副语言研究领域长期存在的标注数据稀缺问题。传统方法依赖人工标注的专有数据集,存在标注不完整、时间戳不准确等局限。SynParaSpeech通过自动化合成技术,提供了大规模、高质量的副语言标注数据,支持副语言事件检测模型的训练与评估。其实验结果表明,基于该数据集的提示调优能显著提升多模态大语言模型在副语言事件检测任务中的准确率和F1分数。
衍生相关工作
基于SynParaSpeech数据集,研究者开展了多项创新工作。在语音合成方向,通过对CosyVoice2和F5-TTS模型进行监督微调,显著提升了副语言合成质量。采用直接偏好优化方法进一步增强了模型对副语言细节的建模能力。在语音理解方向,研究者将数据集应用于Qwen 2.5 Omni和Kimi Audio等模型的提示调优,探索了不同上下文长度对副语言事件检测性能的影响,为多模态语言模型的副语言理解提供了新思路。
以上内容由遇见数据集搜集并总结生成



