NV-Bench

Name: NV-Bench
Creator: 香港中文大学·深圳
Published: 2026-03-18 21:16:23
License: 暂无描述

arXiv2026-03-18 更新2026-03-20 收录

下载链接：

https://nvbench.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

NV-Bench是首个面向非语言声音合成（NV）的标准化评测基准，由香港中文大学·深圳团队构建。该数据集包含1,651条多语言真实场景语音样本，覆盖14种NV类型，每条数据均配有人工参考音频及标准化标注。数据来源于2025年网络公开音视频，经多阶段过滤和专家验证，确保单说话人纯净性和语用准确性。其核心价值在于通过指令对齐和声学保真度双维度评估，推动情感语音合成技术在生理状态模拟、情感传递及对话管理中的应用突破。

NV-Bench is the first standardized evaluation benchmark for non-verbal voice (NV) synthesis, developed by the team from The Chinese University of Hong Kong, Shenzhen. This dataset contains 1,651 multilingual real-scenario speech samples covering 14 types of NV synthesis, with each sample paired with a human reference audio and standardized annotations. The data is sourced from publicly available online audio-visual content in 2025, and has undergone multi-stage filtering and expert validation to ensure single-speaker purity and pragmatic accuracy. Its core value lies in conducting evaluations across two dimensions: instruction alignment and acoustic fidelity, to drive application breakthroughs of emotional speech synthesis technology in physiological state simulation, emotion transmission and dialogue management.

提供机构：

香港中文大学·深圳

创建时间：

2026-03-16

原始信息汇总

NV-Bench 数据集概述

数据集简介

NV-Bench 是首个基于功能分类法构建的基准，用于评估文本转语音（TTS）模型中非语言发声（NVVs）的合成能力。它将 NVVs 视为交际行为而非声学伪影。该数据集包含 1,651 个多语言、真实场景的话语，并配有配对的人类参考音频，在 14 个 NVV 类别 中保持平衡。

核心数据构成

总话语数：1,651 条
音频总时长：7.9 小时（MP3，24kHz）
覆盖语言：普通话（Mandarin）与英语（English）
NVV 类别数：14 类，分为 3 个功能层级

功能分类法

NVVs 根据交际意图分为三个功能层级：

植物性声音：基于生理反射，为语音提供物理真实感。
- 包含：Breathing, Cough, Sigh
情感爆发：传达情感或即时反应的带效价发声。
- 包含：Laughter, Surprise-ah, Surprise-oh, Dissatisfaction-hnn
会话性发声：用于交互管理的提示——填充停顿和韵律粒子。
- 包含：Uhm, Confirmation-en, Question-ei, Question-ah, Question-en, Question-oh, Question-huh

数据子集

单标签子集：每条话语严格包含一个 NVV 事件（每个类别 50 个样本），用于评估基础生成能力。
- 普通话：650 条
- 英语：350 条
多标签子集：包含 2 个及以上 NVV 事件的挑战性话语，用于测试在密集副语言条件下的鲁棒性。
- 普通话：每标签 41–91 条
- 英语：每标签 75–112 条

数据处理流程

数据预处理：通过 Emilia-Pipeline 和 MiMo-Audio 过滤约 565K 个音频片段（约 1,560 小时），进行单人说话者验证。
多语言 NVASR：在 6 个数据集上对 SenseVoice-Small 进行微调，使用统一的标签分类法。
人工验证：10 名标注者参与，Cohens κ > 0.85，最终得到 1,651 个提示-真实音频对（7.9 小时）。

评估协议

1. 指令对齐

评估模型能否在正确位置生成指定的 NVV 事件。

CER：字符错误率
PCER：副语言 CER
OCER：总体 CER

2. 声学保真度

评估合成语音与真实录音相比的逼真度。

FAD / FD：分布距离
SIM：说话人相似度（基于 WavLM）
DNSMOS：感知质量

主要评估结果摘要

整体表现

最佳可控性：NV-CV3 在普通话单标签子集上实现了最低的 PCER（27.69%）。
最佳声学匹配：NV-FlexiVoice 实现了最低的 FAD（0.29）和 FD（2.72），最接近真实分布。
人类相关性：IMOS 与 PCER 显示出显著相关性（ρ = −0.65, p < 0.001），证实了评估的可靠性。

模型性能对比（综合）

系统	FAD ↓	FD ↓	IMOS ↑	NMOS ↑
*GT (Human)*	—	—	4.39 ± 0.18	4.39 ± 0.15
Orpheus-TTS	5.71	24.49	3.27 ± 0.23	3.53 ± 0.22
SMIIP-NV-CV2	1.32	6.71	3.28 ± 0.22	3.28 ± 0.19
Emilia-NV-CV2	1.08	5.57	3.89 ± 0.18	3.99 ± 0.14
CosyVoice3	0.90	9.46	3.56 ± 0.22	3.94 ± 0.20
NV-FlexiVoice	0.29	2.72	3.94 ± 0.23	4.00 ± 0.18
NV-CV3	0.86	3.94	3.95 ± 0.18	4.08 ± 0.16

注：粗体 = 最佳，下划线 = 次佳。↓ 越低越好，↑ 越高越好。

多语言 NVASR 模型性能

该 NVASR 模型在保持高质量通用 ASR 的同时，在 NVV 特定任务上显著优于基线模型。

数据集	SenseVoice	Qwen2.5-Omni	NVASR (Ours)
WenetSpeech test-net	5.77	20.14	5.55
LibriSpeech test-other	12.79	23.35	9.90
SMIIP-NV	3.12	3.59 (4.17)	1.29 (1.36)
NVTTS	14.45	21.69 (26.95)	13.52 (16.10)

注：括号内数值表示 OCER，其他所有数值均为 CER（%）。

搜集汇总

数据集介绍

构建方式

在非言语发声合成领域，构建高质量基准数据集需兼顾真实性与标注准确性。NV-Bench采用两阶段流程：首先开发多语言非言语语音识别模型，对开源数据集进行统一标签归一化，形成功能分类体系；随后从网络音视频媒体中采集原始音频，通过标准化过滤与单说话人验证，确保样本纯净度，最终由专家进行人工校验与修正，形成包含1651条真实配对语音的平衡数据集。

特点

该数据集以功能分类学为基础，将非言语发声视为交际行为而非声学片段，涵盖14种跨语言类别。其核心特征在于严格平衡的单标签子集与反映自然共现的多标签子集相结合，支持对指令对齐与声学保真度的双维度评估。数据均源自真实场景，配有高质量人工参考音频，为量化合成语音与真实录音的分布差距提供了可靠基础。

使用方法

使用NV-Bench时，研究者可依托其标准化评估协议，从指令对齐与声学保真度两个维度系统评估非言语语音合成模型。通过多语言非言语语音识别模型计算字错误率及其变体，衡量模型对文本提示的遵循程度；同时采用声学距离指标与感知评分，量化合成语音的分布真实性与音质自然度。该框架支持对单标签与多标签场景的针对性测试，促进模型可控性与生成质量的分离诊断。

背景与挑战

背景概述

在语音合成技术追求高度拟人化与情感表达的演进历程中，非语言性发声的合成与评估逐渐成为关键瓶颈。NV-Bench数据集由香港中文大学（深圳）的研究团队于2025年提出，旨在为具备非语言性发声合成能力的文本转语音系统建立首个标准化评估基准。该数据集的核心研究问题聚焦于如何超越将非语言性发声视为单纯声学事件的局限，转而从语用功能角度将其建模为传达生理状态、情感及交互意图的交际行为。通过构建一个包含1,651条多语言、真实场景语音样本的平衡测试集，并引入指令对齐与声学保真度的双维度评估协议，NV-Bench为推进更具表现力与可控性的语音合成研究提供了关键的基础设施与评估框架。

当前挑战

NV-Bench致力于解决的领域挑战在于，现有语音合成系统在集成非语言性发声时，缺乏标准化的评估方法来区分指令遵循失败与声学质量低下这两种失效模式，导致模型能力难以被准确诊断与比较。在数据集构建过程中，研究团队面临多重挑战：首先，非语言性发声在自然语音中呈现长尾分布，需通过精心设计的爬取与过滤流程，确保14个类别在测试集中达到统计平衡；其次，获取与文本提示精确配对的高质量真实人声参考音频极为困难，需结合多语言NVASR模型与多轮人工验证，以保障标注的语用准确性与声学纯净度；此外，建立能够同时评估语言内容与副语言事件的新型度量标准（如PCER、OCER），也构成了重要的方法学挑战。

常用场景

经典使用场景

在语音合成领域，非语言发声的生成与评估长期缺乏统一标准。NV-Bench作为首个基于功能分类学的基准测试集，其经典使用场景在于为各类支持非语言发声的文本转语音模型提供标准化、可复现的性能评估框架。该数据集通过精心构建的单标签与多标签子集，系统性地测试模型在生成呼吸、咳嗽、笑声等14类非语言发声事件时的指令对齐能力与声学保真度，从而为模型在复杂副语言环境下的鲁棒性提供客观衡量。

衍生相关工作

围绕NV-Bench的评估框架与高质量数据，已衍生出一系列经典研究工作。例如，基于其统一标签体系与评估指标，研究者对Orpheus-TTS、CosyVoice系列、FlexiVoice等多种前沿TTS模型进行了系统性对标分析。这些工作不仅验证了大规模多样化训练数据对于提升非语言发声可控性的关键作用，也催生了如NV-CV3、NV-FlexiVoice等针对非语言发声能力优化的高性能基线模型，推动了整个领域向更精细、更可控的副语言合成方向发展。

数据集最近研究