HumDial-FDBench

github2026-04-23 更新2026-04-24 收录

下载链接：

https://github.com/ASLP-lab/HumDial-FDBench

下载链接

链接失效反馈

官方服务：

资源简介：

HumDial-FDBench数据集基于双通道真实人类对话记录构建，捕捉了诸如打断、重叠语音和动态轮次协商等现实对话现象。该数据集旨在评估系统在并发听和生成过程中处理打断和保持对话连续性的能力。数据集包含两个主要场景类别：打断和拒绝，共涵盖九个子场景。

The HumDial-FDBench dataset is constructed based on two-channel real human dialogue recordings, capturing realistic dialogue phenomena such as interruptions, overlapping speech, and dynamic turn negotiation. This dataset aims to evaluate the system's ability to handle interruptions and maintain dialogue coherence during concurrent listening and generation processes. The dataset includes two main scenario categories: interruption and rejection, covering a total of nine sub-scenarios.

创建时间：

2026-04-23

原始信息汇总

数据集概述：HumDial-FDBench

该数据集由 HumDial-FDBench 和对应的基准测试（Benchmark）组成，旨在研究全双工（Full-Duplex）口语对话系统中的交互能力，特别是处理打断、重叠语音和动态话轮转换等现实对话现象。数据集源自双通道真实人类录音对话。

数据下载

下载链接：HumDial-FDBench 数据集（HuggingFace）

场景分类

数据集涵盖 打断（Interruption） 和 拒绝（Rejection） 两大类，共 9个子场景：

大类	子场景	说明
打断	后续问题（Follow-up Question）	用户打断以询问相关问题，期望系统立即给出相关回应。
	否定或不满（Negation or Dissatisfaction）	用户表达不同意、纠正或不满，系统需及时调整输出。
	重复请求（Repetition Request）	用户请求系统重复之前的内容。
	话题切换（Topic Switch）	用户突然切换新话题，系统需平滑过渡。
	沉默或停止（Silence or Stop）	用户明确要求系统停止说话，系统需立即停止但保持可恢复状态。
拒绝	用户实时反馈词（User Real-time Backchannels）	用户发出“嗯”、“对”等简短确认词，系统不应中断当前回应。
	停顿处理（Pause Handling）	用户话语中的犹豫或停顿，系统应等待用户表达完整意图。
	第三方语音（Third-party Speech）	背景中他人说话，系统应忽略这些话语。
	对他人的发言（Speech Directed to Others）	用户暂时对他人说话（通常话题无关），系统应检测并忽略。

数据规模

各划分（Train/Dev/Test）的实例数量如下：

类别	场景	训练集	开发集	测试集
打断	后续问题	1507	200	600
打断	否定或不满	1211	200	600
打断	重复请求	1213	200	600
打断	话题切换	1213	200	600
打断	沉默或停止	1212	200	600
拒绝	用户实时反馈词	1211	200	600
拒绝	停顿处理	1211	200	600
拒绝	第三方语音	120	200	600
拒绝	对他人的发言	0	200	200

基准测试：HumDial-FDBench

该基准测试基于 Full-Duplex-Bench v1.5 扩展，重点评估系统在以下方面的能力：

检测并响应打断
管理语音重叠
保持对话连续性
维持自然交互流程

公开排行榜

排行榜展示了不同系统在统一评估协议下的表现，指标包括：

Int.：打断场景得分
Rej.：拒绝场景得分
Delay (s)：平均延迟（秒）
D-Sco.：延迟得分（D-Sco.）
Final：综合最终得分

部分排行榜结果（截至当前公开数据）：

团队	Int.	Rej.	Delay (s)	D-Sco.	Final	排名
Cookie asr	79.3	72.2	1.260	79.9	76.6	1
Badcat	89.7	57.8	1.632	72.6	73.5	2
SenseDialog	76.4	60.9	1.237	80.5	71.0	3
Gemini-2.5	79.8	36.5	1.301	79.0	62.3	--
RhythmSense	77.4	38.6	1.577	73.5	61.1	4
Lingcon Insight	67.6	38.9	1.127	83.1	59.2	5
Baseline	75.9	35.2	2.531	60.0	56.4	6
HelloWorld	51.3	36.3	0.624	100.0	55.0	7
AISpeech	47.7	33.9	3.391	51.6	43.0	8
Cascade	28.1	30.9	1.739	70.7	37.7	9

（注：带 * 的团队为补交结果；-- 表示未参与正式排名）

搜集汇总

数据集介绍

构建方式

HumDial-FDBench数据集源自双声道真实人类对话录音，精心捕捉了打断、重叠语音及动态话轮协商等现实对话现象。数据集覆盖打断与拒绝两大主场景，细分为九个具体子场景，如追问、否定、重复请求、话题切换、静默停止，以及实时反馈、停顿处理、第三方语音、他人导向语音等。每个子场景均按训练、开发、测试集划分，实例数量经严谨分配，确保数据规模与多样性。

特点

该数据集的核心特色在于其高度模拟全双工口语交互的复杂性，聚焦于系统并发监听与生成时的中断处理与对话连续性维持。通过定义丰富的场景类别，精准评估系统对用户打断的检测与响应、语音重叠管理、话轮自然流转等能力。不同于传统基于话轮的基准，HumDial-FDBench提供更贴近真实对话生态的评估环境，推动对话系统向更具响应性与人性化的方向演进。

使用方法

用户可从HuggingFace平台直接下载数据集的训练、开发与测试部分，并借助配套的HumDial-FDBench基准框架进行模型评估。该基准在Full-Duplex-Bench v1.5基础上扩展，支持更复杂交互场景的全面测评。通过统一的评估协议，研究社区可公平比较开源与商业系统在中断感知、延迟控制等维度上的表现，并参考公开排行榜结果优化模型设计。

背景与挑战

背景概述

在语音对话系统的演进历程中，传统交互模型多基于轮流发言机制，难以模拟真实对话中频繁出现的打断、重叠语音及动态话权协商等现象。为弥合这一鸿沟，由ASLP-lab研究团队于ICASSP 2026会议发起的HumDial挑战赛应运而生，其核心贡献在于构建了HumDial-FDBench数据集。该数据集采集自双通道真实人类对话，涵盖打断与拒绝两大类别共计九个子场景，旨在为全双工语音对话系统的研究提供标准化评测基准。凭借其现实场景的丰富性与系统性评估框架，HumDial-FDBench已迅速成为探索类人对话交互能力的关键资源，有力推动了该领域从理想化模拟向自然交互范式的转变。

当前挑战

该数据集所解决的领域问题核心在于：全双工语音对话系统需在监听与生成并行的情况下，精准识别并恰当应对用户打断（如追问、否定、话题切换）、维持对话连续性，同时拒绝响应非指令性语音（如实时反馈、他人话语）。构建过程中遭遇的挑战尤为艰巨：如何通过双通道录音真实捕捉中断与重叠的精细声学特征，如何设计覆盖九种复杂对话场景的数据采集协议以确保数据多样性，以及如何界定拒绝场景中语音的边界（如第三方语音的干扰程度）。这些挑战的攻克，使HumDial-FDBench成为评估系统在动态话权协商中表现的关键试金石。

常用场景

经典使用场景

在对话系统研究领域，全双工交互模拟真实人类对话中打断、重叠语音及动态话轮协商等复杂现象，传统轮次式评测基准难以捕捉这些细微动态。HumDial-FDBench数据集基于双通道真实录音构建，覆盖打断与拒绝两大核心场景下的九类子场景，包括追问、否定、重复请求、话题转移等打断类型，以及实时反馈、暂停处理、第三方语音和对他人口语等拒绝类型。研究者可利用该数据集的精确标注，训练与评测对话系统在并发听与生成过程中处理中断并保持对话连续性的能力，从而推动更接近人类自然交流模式的语音交互模型发展。

衍生相关工作

围绕HumDial-FDBench数据集已衍生出多项经典研究工作。ICASSP 2026 HumDial挑战赛催生了众多全双工对话系统方案，例如冠军队伍Cookie asr在打断识别率和拒绝模块表现出色，Badcat在打断处理上达到89.7%的高分。公开基线Baseline与商业系统Gemini-2.5、Freeze-Omni等模型的对比分析，揭示了延迟与交互流畅性之间的权衡关系。基于该数据集的后续研究还包括延迟评分优化算法、多模态融合的全双工架构设计，以及针对特定子场景（如暂停处理和话题转移）的专用模型微调，这些工作共同构建了全双工对话技术演进的系统脉络。

数据集最近研究