NonVerbalSpeech-38K

Name: NonVerbalSpeech-38K
Creator: 清华大学深圳国际研究生院, 模型最佳公司
Published: 2025-08-07 21:35:29
License: 暂无描述

arXiv2025-08-07 更新2025-08-09 收录

下载链接：

https://github.com/nonverbalspeech38k/nonverspeech38k

下载链接

链接失效反馈

官方服务：

资源简介：

NonVerbalSpeech-38K 是一个大规模的非言语语音生成和理解数据集，由来自现实世界媒体的音频和自动标注流程收集而来。数据集包含 38,718 个样本（约 131 小时），涵盖 10 种非言语线索，如笑声、叹息和清嗓子。该数据集的创建旨在促进非言语语音生成和理解的研究，并通过微调最先进的模型验证其有效性。

NonVerbalSpeech-38K is a large-scale dataset dedicated to nonverbal speech generation and understanding research. It is collected from audio materials sourced from real-world media and constructed via automated annotation pipelines. The dataset contains 38,718 samples (approximately 131 hours) covering 10 types of nonverbal cues, such as laughter, sighs, and throat-clearing sounds. This dataset is developed to advance research on nonverbal speech generation and understanding, and validate its effectiveness through fine-tuning state-of-the-art models.

提供机构：

清华大学深圳国际研究生院, 模型最佳公司

创建时间：

2025-08-07

原始信息汇总

NonVerbalSpeech-38K数据集概述

数据集简介

官方名称：NonVerbalSpeech-38K
官方仓库地址：https://github.com/nonverbalspeech38k/nonverspeech38k

相关资源

演示地址：https://nonverbalspeech38k.github.io/nonverspeech38k/

搜集汇总

数据集介绍

构建方式

NonVerbalSpeech-38K数据集通过自动化流程从多样化的真实世界媒体资源中收集并标注非言语语音数据。数据来源包括动画、电影、综艺节目和广播剧等，确保了数据的多样性和自然性。采用自动化的非言语事件检测流程，结合语音活动检测（VAD）和自动语音识别（ASR）技术，对非言语片段进行精确标注和整合。最终数据集包含38,718个样本（约131小时），涵盖10类非言语标签，如笑声、咳嗽和叹息等。

特点

NonVerbalSpeech-38K数据集以其大规模和多样性著称，覆盖了丰富的非言语语音表达，如情感、意图和社会信号。数据集中包含中英文样本，其中中文样本占主导，体现了跨语言的可扩展性。非言语标签的分布反映了日常交流中的常见现象，如叹息、笑声和咳嗽等高频标签占比较高，而较少见的标签（如打哈欠）也被纳入。数据集的语音时长主要集中在3至30秒之间，确保了数据的实用性和多样性。

使用方法

NonVerbalSpeech-38K数据集适用于非言语语音生成和理解任务。在语音生成方面，可通过在文本中插入非言语标签（如[laugh]）来控制合成语音中的非言语表达。在语音理解方面，数据集可用于训练端到端模型，实现语音转录和非言语标签预测的联合建模。数据集已通过微调F5-TTS和Qwen2-Audio等先进模型验证了其有效性，显著提升了非言语语音合成和理解的性能。

背景与挑战

背景概述

NonVerbalSpeech-38K是由清华大学深圳国际研究生院与ModelBest Inc.联合研发的大规模非言语语音数据集，于2025年8月通过arXiv论文首次公开。该数据集聚焦人类语音交流中 laughter、sigh等非词汇化发声（NVs）的生成与理解，填补了传统语音系统在情感智能和社交信号传递方面的空白。通过从动画、电影等真实媒体源采集131小时38,718条样本，并创新性地采用自动标注流水线，该数据集覆盖10类非言语标签，为构建拟人化语音交互系统提供了关键资源。其多模态特性推动了F5-TTS、Qwen2-Audio等前沿模型的性能突破，显著提升了语音合成与理解任务的情感表现力。

当前挑战

在领域问题层面，非言语语音研究长期面临三大挑战：1) 传统ASR/TTS系统无法处理与词汇无关的声学事件，导致合成语音缺乏情感维度；2) 非言语标签的时序对齐难题，如笑声在语句中的精准插入位置；3) 跨语言非言语表达的差异性建模。在构建过程中，研究团队需解决：1) 真实场景非言语片段的自动检测与分类，特别是边界模糊的呼吸音等；2) 语音与非言语片段的时间戳对齐误差问题，Whisper等ASR模型存在15%的单词级偏移；3) 数据多样性平衡，低频标签（如yawn）样本量不足常规标签的1/50。

常用场景

经典使用场景

NonVerbalSpeech-38K数据集在语音合成与理解领域具有广泛的应用价值，尤其在非语言性语音生成任务中表现突出。该数据集通过标注真实媒体中的非语言性声音（如笑声、叹息、咳嗽等），为研究者提供了丰富的训练样本。在语音合成任务中，该数据集被用于训练模型生成包含非语言性声音的自然语音，显著提升了合成语音的情感表现力。

实际应用

在实际应用中，NonVerbalSpeech-38K数据集被广泛应用于智能语音助手、虚拟人物对话系统和情感计算等领域。例如，在智能客服系统中，通过利用该数据集训练的模型能够生成更具情感色彩的语音回应，从而提升用户体验。此外，该数据集还被用于开发情感识别系统，帮助机器更好地理解人类语音中的情感信号。

衍生相关工作

NonVerbalSpeech-38K数据集衍生了一系列经典研究工作，包括非语言性语音生成模型（如F5-TTS和Qwen2-Audio的改进版本）以及多任务语音理解模型。这些工作不仅推动了语音合成技术的发展，还为跨模态语音-文本联合建模提供了新的思路。此外，该数据集还激发了关于非语言性声音自动标注和跨语言迁移学习的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集