NVSpeech

Name: NVSpeech
Creator: 香港中文大学（深圳）
Published: 2025-08-06 16:25:26
License: 暂无描述

arXiv2025-08-06 更新2025-08-08 收录

下载链接：

https://nvspeech170k.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

NVSpeech是一个用于中文语音中副语言发声识别和合成的集成和可扩展的流程。该数据集包含48,430个人类语音的句子，带有18个词级副语言类别标签。通过使用副语言感知的ASR模型，自动标注了一个包含174,179个句子的大规模语料库，并支持词级对齐和副语言线索。NVSpeech通过统一副语言发声的识别和生成，提供了第一个开放的大型词级标注的流程，以支持普通话中表达性语音建模，并以可扩展和可控的方式进行识别和合成。数据集和音频演示可在https://nvspeech170k.github.io/获取。

NVSpeech is an integrated and extensible pipeline for paralinguistic vocalization recognition and synthesis in Mandarin Chinese. This dataset includes 48,430 human speech sentences annotated with 18 word-level paralinguistic category labels. A large-scale corpus of 174,179 sentences was automatically annotated using a paralinguistics-aware ASR model, and this corpus supports word-level alignment and paralinguistic cues. By unifying the recognition and generation of paralinguistic vocalizations, NVSpeech provides the first open, large-scale word-level annotated pipeline to support expressive speech modeling in Mandarin, enabling scalable and controllable recognition and synthesis. The dataset and audio demos are accessible at https://nvspeech170k.github.io/

提供机构：

香港中文大学（深圳）

创建时间：

2025-08-06

原始信息汇总

NVSpeech数据集概述

数据集基本信息

名称: NVSpeech
类型: 语音数据集（包含副语言特征标注）
语言: 中文普通话为主（含少量英文示例）
规模:
- 人工标注部分: 48,430条话语
- 自动标注部分: 174,179条话语（573小时）
标注级别: 词级别
标注类别: 18种副语言类别

核心特征

副语言标注:
- 包含非言语声音（如[Laughter]、[Breathing]）
- 词汇化插入语（如[Uhm]、[Oh]）
- 情感/态度标记（如[Surprise-oh]、[Dissatisfaction-hnn]）
多任务支持:
- 自动语音识别（ASR）
- 文本到语音合成（TTS）
- 联合建模能力

技术贡献

数据集构建:
- 首个大规模中文词级别副语言标注数据集
- 包含人工标注和自动标注双版本
模型创新:
- 副语言感知ASR模型（将副语言标记作为可解码token）
- 可控TTS系统（支持副语言特征的显式控制）
完整流程:
- 数据标注 → ASR建模 → 自动标注 → TTS训练

应用示例

TTS合成控制: text "还需要[Breathing]...调整" "[Surprise-oh]，这才对嘛！[Breathing]"
ASR转录示例: text "慧星是追求远方的家伙，[Breathing]每隔一段时间..." "[Question-ei]？前面有一个吃饭的地方..."

数据类别示例

类型	示例标记
非言语声音	[Laughter], [Cough], [Sigh]
情感/态度	[Surprise-wa], [Dissatisfaction-hnn]
话语标记	[Question-en], [Confirmation-en]

搜集汇总

数据集介绍

构建方式

NVSpeech数据集的构建采用了多阶段流程，首先从游戏语音库和开源资源中筛选48,430条汉语语音样本，由专业标注团队进行18类副语言现象（如笑声、咳嗽等）的词级人工标注。随后基于标注数据训练副语言感知ASR模型，自动标注包含174,179条语音（573小时）的大规模语料，形成人工标注与自动标注的双层语料体系。为增强数据多样性，还融合了Nonspeech7k的非语音片段及CosyVoice2合成的稀有副语言样本。

特点

该数据集首创汉语词级副语言标注体系，涵盖生理性发声、话语标记和情感性叹词三大类18种标签，如[笑声]、[确认-嗯]等。其特色在于：1) 包含573小时大规模语音与精确词对齐标注；2) 通过半自动标注实现标注规模与成本的平衡；3) 覆盖游戏对话、访谈等多样化场景，支持跨领域模型泛化；4) 提供首个同时标注词汇内容与副语言现象的中文语料库。

使用方法

NVSpeech支持端到端的副语言建模研究：1) 语音识别领域，可直接训练能联合输出词汇与副语言标签（如"真有趣[笑声]"）的ASR系统；2) 语音合成方向，通过将副语言标签作为控制标记输入TTS模型，实现指定位置的副语言插入；3) 副语言分析任务中，可利用其精细标注研究汉语副语言的分布规律与韵律特征。使用时应区分人工标注集（高精度）与自动标注集（大规模）的应用场景。

背景与挑战

背景概述

NVSpeech数据集由香港中文大学（深圳）和广州趣丸网络科技的研究团队于2025年8月发布，旨在解决传统语音识别（ASR）和文本转语音（TTS）系统对副语言特征（如笑声、呼吸声等）的忽视问题。该数据集包含48,430条人工标注的语音样本和174,179条自动标注的语音样本，共计573小时，覆盖18种副语言类别。NVSpeech通过整合副语言特征的识别与生成，为普通话表达性语音建模提供了首个开放、大规模、词级标注的解决方案，显著推动了语音处理领域的发展。

当前挑战

NVSpeech面临的挑战主要包括：1) 在领域问题方面，传统ASR和TTS系统难以处理副语言特征与词汇内容的交织问题，导致生成的语音缺乏自然性和表达力；2) 在构建过程中，数据集需要解决词级对齐的标注难题，以及如何在大规模语音数据中高效且准确地标注副语言特征。此外，普通话的声调和韵律与副语言特征的紧密交互进一步增加了建模的复杂性。

常用场景

经典使用场景

NVSpeech数据集在语音识别和语音合成领域具有广泛的应用价值。其经典使用场景包括自动语音识别（ASR）系统中对副语言声音（如笑声、呼吸声等）的识别与转录，以及文本到语音（TTS）系统中对这些副语言声音的生成与控制。通过提供词级对齐的副语言标注，NVSpeech使得模型能够更准确地理解和生成自然的人类语音，从而在语音交互系统中实现更自然的对话体验。

衍生相关工作

NVSpeech数据集衍生了一系列相关研究工作，特别是在副语言声音的识别与生成领域。例如，基于该数据集开发的副语言感知ASR模型能够同时转录词汇内容和副语言声音，而增强型TTS模型则能够根据上下文在任意位置插入副语言声音。这些工作进一步推动了语音处理技术的发展，并为后续研究提供了重要的参考和基准。

数据集最近研究