NVBench

Name: NVBench
Creator: 南京大学; 香港科技大学; 香港中文大学; 北京科技大学; 西北工业大学; 上海交通大学; 国立台湾大学
Published: 2026-04-21 21:32:36
License: 暂无描述

arXiv2026-04-21 更新2026-04-21 收录

下载链接：

https://lmxue.github.io/NVBench/

下载链接

链接失效反馈

官方服务：

资源简介：

NVBench是由多所高校联合构建的双语（中/英文）非言语发声合成评估基准，包含45类呼吸/喉部/情感相关非言语声学事件（如笑声、叹息）的标准化分类体系。数据集通过三阶段流程构建：首先从真人表达性语音中挖掘种子数据，再基于大模型生成类型平衡的文本候选，最后经人工校验确保语境合理性与事件可感知性。该数据集支持提示文本与标签两种控制接口，旨在系统评估TTS系统在非言语事件可控性、时序对齐及情感显著性等方面的表现，推动更具人性化的语音合成技术发展。

提供机构：

南京大学; 香港科技大学; 香港中文大学; 北京科技大学; 西北工业大学; 上海交通大学; 国立台湾大学

创建时间：

2026-04-18

原始信息汇总

NVBench: 非言语发声语音合成基准数据集概述

数据集基本信息

数据集名称: NVBench (Non-verbal Vocalization Benchmark)
发布状态: Interspeech 2026 匿名投稿
核心目标: 评估语音合成系统在生成非言语发声方面的能力

数据集核心构成

1. 非言语发声分类体系

一个统一的分类体系，包含 6个大类 和 45种细粒度 的非言语发声类型。
具体分类与数量:
- 呼吸类: 10种 (如 breath, inhale, exhale, sigh, gasp, panting, wheezing, snore, yawn, quick breath)
- 喉部/生理类: 7种 (如 cough, sneeze, throat clearing, hiccup, sniff, sniffle, snort)
- 笑声谱系: 7种 (如 chuckle, giggle, laugh, laugh harder, start laughing, stifled laugh, burst of laughter)
- 哭声谱系: 5种 (如 crying, sobbing, crying loudly, wail, whimper)
- 情感发声: 7种 (如 hum, humming, groan, moan, grunt, mumble, exclamation)
- 口腔/杂类: 9种 (如 lipsmack, gulp, swallow, burp, tsk, sss, clucking, hissing, whisper)

2. 双语评估集

包含 4,500个 高质量实例。
语言: 英语和中文。
覆盖范围: 均衡覆盖所有45种NVV类型和两种合成范式。

3. 多维度评估协议

将通用语音质量与非言语发声特有的可控性、放置准确性和显著性进行分离评估。
评估了 15个 TTS系统。

评估方法与结果摘要

评估系统

评估涵盖了以下系统，并按合成范式（基于标签/基于提示）和语言分组：

基于提示的系统 (Prompt-based): Parler-TTS Mini, Parler-TTS Large, CapSpeech, Qwen3-TTS, GPT-4o mini TTS, Gemini 2.5 Flash, Gemini 2.5 Pro
基于标签的系统 (Tag-based): Bark, Higgs-Audio, ChatTTS, Fish-Speech, Dia, CosyVoice 2, Orpheus TTS, ElevenLabs

评估维度与指标

客观指标:
- 语音质量: SIG (信号失真)、BAK (背景噪声)、OVRL (总体质量) - DNSMOS指标，越高越好。
- 识别错误率: WER (英文词错误率)、CER (中文字错误率) - 越低越好。
- 标签相关指标 (仅用于基于标签的系统): Coverage (覆盖率)、Precision (精确率)、Recall (召回率)、F1分数、NTD (归一化标签距离)。
- 语义对齐: CLAP Score (基于提示的系统)。
主观听测指标 (5分制):
- 通用语音质量: Naturalness (自然度)、Quality (质量)。
- 非言语发声特定指标: NVV PE (感知效果)、NVV IF (指令跟随，用于基于提示的系统) 或 NVV Accuracy (准确性，用于基于标签的系统)。
基于LLM的自动评估 (5分制):
- 使用自动化多评分者协议，评估维度与主观听测类似。

关键结果发现

非言语发声的可控性常与语音质量解耦。
低信噪比的口腔提示和长时程的情感性非言语发声仍是持续的瓶颈。

数据与代码可用性

论文: Coming Soon
数据集: 可用
代码: 可用 (GitHub仓库)

引用格式

bibtex @inproceedings{nvbench2026, title = {NVBench: A Benchmark for Speech Synthesis with Non-Verbal Vocalizations}, author = {Anonymous}, booktitle = {Interspeech 2026}, year = {2026} }

搜集汇总

数据集介绍

构建方式

在语音合成领域，非言语发声的标准化评估长期缺失，NVBench的构建旨在填补这一空白。其数据集通过一个严谨的三阶段流程构建：首先从高质量的人类表达性语音中，利用大语言模型辅助挖掘并人工审核，获得高置信度的非言语发声种子样本；随后，基于统一的45类非言语发声分类体系，驱动大语言模型生成覆盖所有类型的双语文本候选，并确保上下文自然且感知清晰；最后，通过自动一致性校验与人工质量控制的迭代循环，对生成内容进行验证与补充，最终形成包含4500个高质量实例、类型均衡的英汉双语评估集。

特点

NVBench的核心特点在于其系统性与多维性。它首次提出了一个覆盖呼吸、喉部/生理、笑声谱系、哭声谱系、情感发声及口腔/杂项六大类别、共计45种精细类型的非言语发声统一分类体系，为跨系统比较提供了标准化基础。该数据集是双语的，包含英语和中文，确保了跨语言评估的一致性。更重要的是，它配套了一套多轴评估协议，将通用语音自然度与质量，与非言语发声特有的可控性、时序放置和感知显著性进行解耦分析，从而能够更精细地诊断合成系统的能力边界与瓶颈。

使用方法

NVBench为评估支持非言语发声的语音合成系统提供了标准化框架。使用者可以基于其提供的双语评估集，对目标系统进行测试。评估支持两种主流控制接口：基于提示的控制，即通过自然语言描述指定非言语发声；以及基于标签的控制，即在文本中插入特定标签。评估过程综合了客观指标、主观听感测试以及基于大语言模型的多评分者评估。客观指标涵盖可懂度、语音质量及非言语发声控制精度；主观测试通过众包平台收集人类对自然度、质量及非言语发声效果的评分；大语言模型评估则提供了可扩展、可复现的补充判断。通过这一综合流程，研究者能够对系统在非言语发声合成方面的性能进行全面、公平的跨系统比较。

背景与挑战

背景概述

在语音合成技术追求高度拟人化的演进历程中，非言语发声的生成与评估构成了关键瓶颈。NVBench数据集由南京大学、香港科技大学等机构的研究团队于2026年联合创建，旨在为语音合成系统在非言语发声方面的能力提供标准化、系统化的评估基准。该数据集的核心研究问题聚焦于如何准确评估合成语音中非言语发声的可控性、时序放置与感知显著性，从而推动语音合成技术超越单纯的语义传达，迈向更具情感深度与社会交互真实感的新阶段。通过构建涵盖45种精细类型、支持英汉双语的多轴评估协议，NVBench为领域内不同控制接口的系统提供了公平比较的基础，对推动拟人化语音交互研究产生了深远影响。

当前挑战

NVBench所应对的核心领域挑战在于解决语音合成中非言语发声的标准化评估难题。传统评估体系难以分离语音整体自然度与非言语发声特有的可控性、时序准确性及感知效果，导致系统能力衡量失准。在数据集构建过程中，研究团队面临多重具体挑战：首先，需建立一套统一且覆盖广泛的非言语发声分类体系，以弥合现有系统与数据集中零散且不一致的标签定义；其次，高质量双语数据的构建需克服低信噪比口腔线索与长时程情感性发声样本稀缺的困难，确保数据在类型与感知显著性上的平衡；最后，设计能够同时适用于提示式与标签式控制接口的多轴评估协议，并保证其客观性、可扩展性与人类主观感知的一致性，亦是构建过程中的关键难点。

常用场景

经典使用场景

在语音合成领域，非语言发声的生成与评估长期缺乏统一标准。NVBench作为双语基准测试集，其经典使用场景在于系统性地评估文本转语音系统在合成非语言发声时的综合能力。该数据集通过精心设计的45类非语言发声分类体系，结合多轴评估协议，为研究人员提供了在可控性、时序放置和感知显著性等维度上对比不同系统的标准化框架。典型应用包括对基于提示和基于标签的TTS系统进行跨语言、跨接口的公平性能比较，从而揭示各类系统在生成笑声、叹息、哭泣等非语言元素时的优势与瓶颈。

实际应用

在实际应用层面，NVBench为开发更自然、更具交互性的语音合成系统提供了关键指导。其评估结果直接服务于虚拟助手、有声内容创作、情感计算和沉浸式人机交互等场景的优化需求。例如，在智能客服或陪伴型机器人中，系统能够依据该基准的反馈，更准确地合成表达共情或强调语气的非语言发声，从而提升对话的真实感与用户体验。同时，该数据集支持的双语评估能力，有助于跨语言语音合成产品的质量把控与技术迭代，满足全球化应用中对多样化情感表达的精准需求。

衍生相关工作

NVBench的发布催生并衔接了多项围绕非语言发声合成与评估的经典研究工作。其统一的分类体系与评估方法为后续研究提供了可扩展的基础，例如在非语言发声检测、细粒度情感语音合成以及多模态对话生成等领域产生了深远影响。相关工作如WESR在事件-语音识别方面的探索，以及NV-Bench等针对非语言发声合成的早期基准，均在NVBench的框架下得到了整合与拓展。该数据集也激励了针对低信噪比口腔线索和持续性情感发声等挑战性问题的建模创新，推动了整个领域向更细致、更可控的非语言表达能力演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集