NVSpeech170k
收藏github2025-08-07 更新2025-08-08 收录
下载链接:
https://github.com/Hannieliao/NVSpeech
下载链接
链接失效反馈官方服务:
资源简介:
NVSpeech170k是一个大规模、开源的数据集,包含174,179个自动标注的语音片段,总计约573小时。数据集涵盖了18种细粒度的副语言类别,如笑声、呼吸、哭泣等,这些在传统的ASR和TTS系统中常被忽略。该数据集支持副语言感知的ASR和可控的语音合成,具有普通话优先设计,并展示了跨语言(如英语)的适用性。
NVSpeech170k is a large-scale, open-source dataset containing 174,179 automatically annotated speech segments with a total duration of approximately 573 hours. It covers 18 fine-grained paralinguistic categories including laughter, breathing, crying and other similar paralinguistic cues, which are frequently overlooked in traditional Automatic Speech Recognition (ASR) and Text-to-Speech (TTS) systems. This dataset supports paralinguistics-aware ASR and controllable speech synthesis, is designed with Mandarin as the priority language, and demonstrates cross-language applicability (e.g., English).
创建时间:
2025-08-06
原始信息汇总
NVSpeech数据集概述
1. 数据集简介
- 名称:NVSpeech
- 特点:首个大规模开源管道,联合识别和合成副语言发声(如笑声、呼吸、哭泣等)
- 核心价值:建模人类说话方式(不仅关注内容,更关注表达方式)
2. 关键数据指标
- 标注数据量:48,430条人工标注语音 + 174,179条自动标注语音
- 总时长:约573小时
- 语言:以中文为主设计,已证明可跨语言应用于英语
3. 副语言标签体系
- 类别数量:18种细粒度分类
- 主要类别:
- 生理发声(呼吸/咳嗽/叹息)
- 情感表达(笑声/哭泣)
- 填充词(uhm/oh等)
- 疑问/确认语气标记
4. 技术功能
ASR系统
- 特性:内联解码副语言标记
- 示例:将音频转换为含非语言标记的文本(如"Youre so funny [Laughter]")
TTS系统
- 特性:支持任意位置插入副语言标记
- 控制粒度:位置感知的精细控制
5. 资源获取
- 论文:https://arxiv.org/abs/2508.04195
- 演示页面:https://nvspeech170k.github.io/
- 数据集地址:https://huggingface.co/datasets/Hannie0813/NVSpeech170k
6. 发布计划
- 已完成:自动标注数据集、ASR/TTS演示系统
- 待发布:副语言感知ASR模型推理代码、预训练模型(中英文)
7. 许可信息
- 许可证类型:CC BY-NC-SA 4.0
搜集汇总
数据集介绍

构建方式
NVSpeech170k数据集的构建采用了多阶段自动化与人工标注相结合的创新方法。研究团队首先通过自主开发的ASR模型对原始音频进行自动标注,生成包含174,179条语音的初始数据集。在此基础上,专家团队对48,430条关键样本进行了精细人工标注,确保18类副语言特征(如笑声、呼吸声等)的标注准确性。该流程特别设计了针对汉语副语言特征的标注体系,同时验证了跨语言应用的可行性。
特点
作为首个大规模开源的副语言语音数据集,NVSpeech170k最显著的特点是实现了对非词汇化声音的系统性标注。数据集包含573小时语音,涵盖18类精细标注的副语言现象,包括呼吸声、笑声等非词汇声音以及带有情感色彩的感叹词。其创新性体现在同时支持ASR系统的内联解码和TTS系统的位置感知控制,为构建拟人化语音模型提供了完整的数据基础。汉语优先的设计策略使其在保留汉语特有副语言特征的同时,也展现出良好的跨语言迁移能力。
使用方法
该数据集可通过Hugging Face平台直接获取,支持端到端的副语言语音研究流程。对于ASR任务,研究者可利用内嵌副语言标签的文本输出来训练能识别非词汇声音的模型;在TTS应用中,通过在任意文本位置插入标签符号(如'(Uhm)')即可生成包含对应副语言特征的合成语音。数据集提供的标准化标注格式兼容主流语音处理框架,其分层标注体系允许研究者根据需求选择不同粒度的副语言特征进行研究。
背景与挑战
背景概述
NVSpeech170k数据集由Huan Liao等研究人员于2025年推出,是首个专注于副语言现象(如笑声、呼吸声、哭泣等非词汇性发声)的大规模开源语音建模管道。该数据集由清华大学等机构联合开发,旨在突破传统语音识别与合成系统仅关注词汇内容的局限,通过整合18类精细标注的副语言特征,实现对人类说话方式的全面建模。其创新性体现在首次将副语言识别与合成纳入统一框架,并以中文为优先设计语言,同时验证了跨语言应用的可行性。这一成果为语音交互系统向更具人性化的方向发展提供了重要数据支撑,对语音计算领域产生了深远影响。
当前挑战
在解决副语言建模这一领域核心问题时,NVSpeech170k面临双重挑战:从技术层面看,非词汇性发声的多样性和上下文依赖性导致传统声学模型难以准确识别,例如叹息声与呼吸声的频谱相似性增加了分类难度;在合成阶段,如何实现副语言单元与语音流的自然时序对齐成为关键瓶颈。数据集构建过程中,研究人员需克服大规模语音样本标注的复杂性,特别是针对中文特有的韵律特征(如四声变化)与副语言现象的交互影响,开发了混合标注策略以平衡标注精度与规模扩展的矛盾。此外,跨语言泛化性验证也面临英语与汉语副语言表达文化差异带来的数据适配挑战。
常用场景
经典使用场景
在语音识别与合成领域,NVSpeech170k数据集因其对副语言现象的全面标注而成为研究人类非词汇性表达的经典工具。该数据集特别适用于探索如何在自动语音识别(ASR)系统中嵌入笑声、叹息等非词汇性声音的识别能力,以及在文本转语音(TTS)系统中实现对这些声音的精确控制与合成。通过提供大量标注数据,NVSpeech170k为研究者提供了一个统一的平台,用于开发能够更自然模拟人类语音表达的模型。
解决学术问题
NVSpeech170k数据集解决了传统语音处理系统忽视非词汇性声音的学术难题,填补了副语言现象建模的数据空白。其精细标注的18类副语言标签(如呼吸声、哭泣声等)为研究人类语音中的情感表达和社交信号提供了量化基础。该数据集通过联合ASR与TTS的标注框架,首次实现了从识别到合成的端到端副语言建模,推动了多模态人机交互领域的发展。
衍生相关工作
该数据集催生了多项创新研究,包括基于Paraformer架构的副语言感知ASR系统,以及融合Qwen-Audio特征的跨模态情感分析模型。在语音合成方向,研究者利用其位置感知标注开发了CosyVoice的变体,实现笑声插入点的精准控制。部分工作进一步扩展了标签体系,将原18类副语言现象细化为32个子类,推动细粒度语音生成技术的发展。
以上内容由遇见数据集搜集并总结生成



