FLEXI
收藏arXiv2025-09-26 更新2025-09-30 收录
下载链接:
https://github.com/ChristineCHEN274/FLEXI
下载链接
链接失效反馈官方服务:
资源简介:
FLEXI是一个用于评估全双工LLM-人类语音交互的自然性、流畅性和智能性的基准,涵盖了六个不同的人类-LLM交互场景,考虑了紧急情况下的模型中断。所有数据都是由先进的LLM生成的,合成为语音,并手动验证。数据集是为了评估全双工语音对话模型的性能而创建的,涵盖了从标准轮换到紧急中断的各种场景,旨在解决全双工交互中的挑战。
提供机构:
东北大学计算机科学与工程学院,中国
创建时间:
2025-09-26
原始信息汇总
FLEXI数据集概述
数据集基本信息
- 数据集名称: FLEXI: BENCHMARKING FULL-DUPLEX HUMAN-LLM SPEECH INTERACTION
- 存储位置:
- GitHub: https://github.com/ChristineCHEN274/FLEXI
- Hugging Face: https://huggingface.co/datasets/qibai/FLEXI
数据集内容
- 数据形式: 包含六个全双工人机交互场景的文本版本数据
- 数据存储:
- 基础文本数据位于GitHub仓库的
dataset文件夹 - 完整数据集需从Hugging Face下载
- 基础文本数据位于GitHub仓库的
数据集用途
- 主要功能: 评估全双工人类-大语言模型语音交互
- 评估场景:
- 轮转对话
- 停顿处理
- 用户反馈
- 用户打断
- 模型反馈
- 模型打断
数据处理工具
- 语音识别工具: 提供时间对齐转录脚本
./tools/asr_tool/asr.py - 评估脚本: 针对六个场景分别提供专用评估脚本
模型支持
- 推理支持: 在
inference文件夹中提供四个模型的推理脚本 - 环境要求: Python 3.11,依赖包详见requirements.txt
搜集汇总
数据集介绍

构建方式
在语音交互研究领域,构建高质量数据集是评估模型性能的关键基础。FLEXI数据集通过先进的大语言模型生成多样化对话内容,涵盖六种全双工人机交互场景,包括标准对话轮换、暂停处理及紧急中断等复杂情境。所有文本数据均经过语音合成技术转换为自然语音流,并在用户查询间插入符合人类对话习惯的沉默间隔,最后通过人工验证确保数据质量与真实性。
使用方法
研究人员可通过模拟实时语音交互环境,将待评估的语音对话模型接入数据集构建的测试流程。系统会依次呈现六类交互场景的语音输入,记录模型在轮换控制、中断响应等关键节点的行为数据。通过分析模型输出的延迟统计、语义一致性及场景适应度等指标,可客观比较不同架构在全双工交互任务上的性能差异,为优化对话系统提供实证依据。
背景与挑战
背景概述
随着大语言模型在人机交互领域的革命性突破,实现自然流畅的全双工语音对话成为新一代交互范式的核心目标。FLEXI数据集由东北大学与牛Trans研究院等机构于2025年联合创建,聚焦于全双工语音交互场景下的实时对话评估。该数据集通过构建六类典型交互情境,系统评估模型在紧急中断、话轮转换等复杂场景中的表现,填补了全双工语音交互标准化评估的空白,为人机语音对话系统的优化提供了关键基准。
当前挑战
在解决全双工语音交互的核心问题时,现有模型面临三大挑战:实时对话中的低延迟响应要求与模型计算复杂度的矛盾,多场景下话轮控制与语义连贯性的平衡难题,以及紧急中断场景中精准意图识别与快速响应的协同优化。在数据构建过程中,合成语音与真实交互的语义对齐、多模态数据的时间同步标注、以及交互场景多样性的标准化定义,均构成了数据质量保障的关键瓶颈。
常用场景
解决学术问题
FLEXI数据集有效解决了全双工语音交互研究中的若干关键学术问题。首先,它填补了现有基准测试在紧急场景下模型主动打断能力评估的空白,为研究语音系统在关键时刻的干预能力提供了量化标准。其次,通过引入多维度评估指标如接管率、延迟时间和话题转换评分等,该数据集帮助学术界深入理解模型在重叠对话、轮转控制和语义连贯性等方面的表现差异。这些评估结果揭示了开源模型与商业系统在紧急意识、轮转终止和交互延迟方面存在的显著差距,为后续模型优化指明了方向。
实际应用
在实际应用层面,FLEXI数据集对智能语音助手、实时翻译系统和应急响应系统等场景具有重要价值。基于该数据集的评估结果,开发者能够优化语音助手在用户突然改变话题时的应对策略,提升对话的自然流畅度。在紧急场景下,系统可以学习主动打断用户以提供关键信息,这在医疗急救、安全预警等高风险环境中尤为重要。此外,该数据集还有助于改善跨语言实时翻译系统在重叠对话场景下的表现,确保翻译的准确性和及时性。
数据集最近研究
最新研究方向
在语音对话系统领域,FLEXI基准测试系统揭示了全双工人机语音交互的前沿研究方向。该研究聚焦于实时对话系统中模型中断处理与交互自然度的平衡,通过六类交互场景实证分析了开源与商业模型在紧急情境感知和延迟控制方面的显著差异。当前研究热点集中于下一代令牌对预测架构的探索,该技术通过并行处理听説信号突破传统自回归范式的限制,为构建具备人类对话流畅性的实时交互系统提供了新的技术路径。
相关研究论文
- 1FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction东北大学计算机科学与工程学院,中国 · 2025年
以上内容由遇见数据集搜集并总结生成



