FastTurn Test Set
收藏github2026-04-02 更新2026-04-04 收录
下载链接:
https://github.com/ASLP-lab/FastTurn
下载链接
链接失效反馈官方服务:
资源简介:
FastTurn测试集是一个高质量的双通道真实人机对话数据集,通过精确标注构建而成。标注包括说话者身份、情感、时间戳、轮次边界、副语言线索(如停顿、重叠和反馈信号)以及转录文本。这些标注提供了交互结构、时间对齐和中断行为的全面视图。通过结合双通道音频和丰富的多维标注及转录,FastTurn测试集成为研究对话协调、中断建模和全双工口语对话系统的有用资源。
The FastTurn Test Set is a high-quality dual-channel real human-machine conversation dataset constructed via precise annotation. The annotations include speaker identity, emotion, timestamps, turn boundaries, paralinguistic cues (such as pauses, overlaps, and feedback signals), and transcribed text. These annotations provide a comprehensive view of interaction structure, temporal alignment, and interruption behaviors. By combining dual-channel audio with rich multi-dimensional annotations and transcriptions, the FastTurn Test Set serves as a valuable resource for researching dialogue coordination, interruption modeling, and full-duplex spoken dialogue systems.
创建时间:
2026-04-01
原始信息汇总
FastTurn 数据集概述
数据集简介
FastTurn 发布的是 FastTurn 测试集。该测试集旨在为评估现实对话条件下的轮次转换行为提供一个基准。
数据集内容与特点
- 数据来源:采集了高质量的双通道真人对话数据,并通过精确标注构建。
- 标注信息:包含丰富的交互级别标签,具体有:
- 说话人身份
- 情绪
- 时间戳
- 轮次边界
- 副语言线索(如停顿、重叠、反馈语)
- 转录文本
- 数据价值:结合双通道音频与丰富的多维标注及转录,为对话协调、打断建模和全双工会话系统的研究提供了有用的资源。
数据集统计信息
为评估轮次状态预测,构建了一个评估集,包含来自真实世界数据的片段和1000个合成的“等待”状态样本。
| 轮次状态 | 来源 | 样本数 | 时长 (小时) |
|---|---|---|---|
| Complete | 真实世界 | 14709 | 9.64 |
| Incomplete | 真实世界 | 3643 | 2.15 |
| Backchannel | 真实世界 | 3080 | 0.42 |
| Wait | 合成 | 1000 | 0.71 |
注:由于“等待”状态在自然对话中罕见,使用 DeepSeek V3 进行文本生成和 IndexTTS2 进行音频合成来补充合成样本。
搜集汇总
数据集介绍

构建方式
在对话系统研究领域,构建能够反映真实交互模式的数据集至关重要。FastTurn测试集的构建采用了双通道真实人机对话数据采集方法,通过精细的标注流程,涵盖了说话人身份、情感状态、时间戳、话轮边界以及副语言线索(如停顿、重叠和反馈信号)等多维度信息。为了弥补自然对话中“等待”状态样本的稀缺性,研究团队还利用DeepSeek V3进行文本生成,并借助IndexTTS2进行音频合成,创造了一千个合成样本,从而确保了数据集的平衡性与代表性。
特点
该数据集的核心特点在于其丰富的多层次标注体系,不仅提供了精确的转写文本,还囊括了情感、话轮边界及副语言行为等深层交互特征。双通道音频数据的加入使得研究者能够细致分析对话中的重叠与打断现象,为全双工口语对话系统的开发提供了真实且全面的评估基准。数据集中包含的真实样本与合成样本相结合,有效覆盖了从完整话轮到反馈信号等多种对话状态,为模型在复杂场景下的鲁棒性测试奠定了坚实基础。
使用方法
FastTurn测试集主要用于评估低延迟话轮检测模型的性能,尤其适用于全双工口语对话系统的开发与优化。研究者可通过加载数据集中的双通道音频及对应标注,对模型在实时环境下的打断检测、话轮预测等任务进行定量分析。该数据集支持对话协调、中断建模等多个研究方向,用户可依据提供的说话人身份、时间戳及副语言线索,深入探究对话动态中的时序对齐与交互结构,从而推动更自然、更流畅的人机对话系统实现。
背景与挑战
背景概述
在口语对话系统领域,实现自然流畅的全双工交互一直是核心研究目标,其中低延迟的说话人转换检测技术至关重要。FastTurn Test Set由相关研究团队于近期构建并发布,旨在为实时对话中的轮次转换行为提供高质量的评估基准。该数据集通过采集真实双通道人机对话数据,并标注了包括说话人身份、情感、时间戳、轮次边界及副语言线索在内的多维信息,为研究对话协调、打断建模及全双工系统提供了丰富资源,显著推动了对话交互技术向更自然、更鲁棒的方向发展。
当前挑战
FastTurn Test Set致力于解决全双工口语对话系统中低延迟轮次检测的挑战,其核心在于准确识别对话中的轮次转换、重叠及反馈信号,以提升系统交互的实时性与自然度。在构建过程中,面临的主要挑战包括:现有开源对话语料普遍缺乏精细的轮次标注,难以支持可靠模型开发;同时,自然对话中“等待”状态样本稀少,需通过合成数据补充以平衡评估集;此外,双通道音频与多维标注的精确对齐也增加了数据处理的复杂性,要求高精度的时序标注与质量控制。
常用场景
经典使用场景
在语音对话系统领域,FastTurn Test Set 为实时对话中的轮次检测提供了基准评估场景。该数据集通过双通道真实人机对话数据,结合精细的标注如说话人身份、情感、时间戳及轮次边界,使得研究人员能够在接近真实交互的条件下,测试模型对对话轮次转换的识别能力。其经典使用场景包括评估全双工语音系统在低延迟环境下的表现,特别是在处理重叠语音、停顿和反馈信号等副语言线索时,模型能否准确预测说话权的转移。
衍生相关工作
基于 FastTurn Test Set,已衍生出多项经典研究工作,主要集中在低延迟轮次检测框架的优化上。例如,结合流式 CTC 解码与大语言模型的语义推理方法,以及声学-语义融合技术,这些工作进一步提升了轮次预测的精度和实时性。此外,该数据集还促进了对话协调和中断建模领域的新模型开发,如利用副语言线索进行情感分析和交互结构预测,为语音对话系统的学术与工程实践开辟了新的研究方向。
数据集最近研究
最新研究方向
在语音对话系统领域,实时交互的自然性与流畅性一直是核心挑战。FastTurn Test Set作为首个融合双通道音频与多维标注的测试基准,正推动全双工对话系统向低延迟、高鲁棒性方向发展。前沿研究聚焦于利用流式CTC解码与大语言模型语义推理的融合架构,精准建模对话中的重叠、停顿与反馈等副语言线索,以优化实时话轮检测性能。这一进展不仅提升了人机对话的协调性,也为中断建模与对话结构分析提供了可靠的数据基础,标志着智能语音交互向更自然、更人性化迈出了关键一步。
以上内容由遇见数据集搜集并总结生成



