FLEXI

Name: FLEXI
Creator: 东北大学计算机科学与工程学院,中国
Published: 2025-09-26 19:57:42
License: 暂无描述

arXiv2025-09-26 更新2025-09-30 收录

下载链接：

https://github.com/ChristineCHEN274/FLEXI

下载链接

链接失效反馈

官方服务：

资源简介：

FLEXI是一个用于评估全双工LLM-人类语音交互的自然性、流畅性和智能性的基准，涵盖了六个不同的人类-LLM交互场景，考虑了紧急情况下的模型中断。所有数据都是由先进的LLM生成的，合成为语音，并手动验证。数据集是为了评估全双工语音对话模型的性能而创建的，涵盖了从标准轮换到紧急中断的各种场景，旨在解决全双工交互中的挑战。

提供机构：

东北大学计算机科学与工程学院,中国

创建时间：

2025-09-26

原始信息汇总

FLEXI数据集概述

数据集基本信息

数据集名称: FLEXI: BENCHMARKING FULL-DUPLEX HUMAN-LLM SPEECH INTERACTION
存储位置:
- GitHub: https://github.com/ChristineCHEN274/FLEXI
- Hugging Face: https://huggingface.co/datasets/qibai/FLEXI

数据集内容

数据形式: 包含六个全双工人机交互场景的文本版本数据
数据存储:
- 基础文本数据位于GitHub仓库的dataset文件夹
- 完整数据集需从Hugging Face下载

数据集用途

主要功能: 评估全双工人类-大语言模型语音交互
评估场景:
- 轮转对话
- 停顿处理
- 用户反馈
- 用户打断
- 模型反馈
- 模型打断

数据处理工具

语音识别工具: 提供时间对齐转录脚本./tools/asr_tool/asr.py
评估脚本: 针对六个场景分别提供专用评估脚本

模型支持

推理支持: 在inference文件夹中提供四个模型的推理脚本
环境要求: Python 3.11，依赖包详见requirements.txt

搜集汇总

数据集介绍

构建方式

在语音交互研究领域，构建高质量数据集是评估模型性能的关键基础。FLEXI数据集通过先进的大语言模型生成多样化对话内容，涵盖六种全双工人机交互场景，包括标准对话轮换、暂停处理及紧急中断等复杂情境。所有文本数据均经过语音合成技术转换为自然语音流，并在用户查询间插入符合人类对话习惯的沉默间隔，最后通过人工验证确保数据质量与真实性。

使用方法

研究人员可通过模拟实时语音交互环境，将待评估的语音对话模型接入数据集构建的测试流程。系统会依次呈现六类交互场景的语音输入，记录模型在轮换控制、中断响应等关键节点的行为数据。通过分析模型输出的延迟统计、语义一致性及场景适应度等指标，可客观比较不同架构在全双工交互任务上的性能差异，为优化对话系统提供实证依据。

背景与挑战

背景概述

随着大语言模型在人机交互领域的革命性突破，实现自然流畅的全双工语音对话成为新一代交互范式的核心目标。FLEXI数据集由东北大学与牛Trans研究院等机构于2025年联合创建，聚焦于全双工语音交互场景下的实时对话评估。该数据集通过构建六类典型交互情境，系统评估模型在紧急中断、话轮转换等复杂场景中的表现，填补了全双工语音交互标准化评估的空白，为人机语音对话系统的优化提供了关键基准。

当前挑战

在解决全双工语音交互的核心问题时，现有模型面临三大挑战：实时对话中的低延迟响应要求与模型计算复杂度的矛盾，多场景下话轮控制与语义连贯性的平衡难题，以及紧急中断场景中精准意图识别与快速响应的协同优化。在数据构建过程中，合成语音与真实交互的语义对齐、多模态数据的时间同步标注、以及交互场景多样性的标准化定义，均构成了数据质量保障的关键瓶颈。

常用场景

解决学术问题

FLEXI数据集有效解决了全双工语音交互研究中的若干关键学术问题。首先，它填补了现有基准测试在紧急场景下模型主动打断能力评估的空白，为研究语音系统在关键时刻的干预能力提供了量化标准。其次，通过引入多维度评估指标如接管率、延迟时间和话题转换评分等，该数据集帮助学术界深入理解模型在重叠对话、轮转控制和语义连贯性等方面的表现差异。这些评估结果揭示了开源模型与商业系统在紧急意识、轮转终止和交互延迟方面存在的显著差距，为后续模型优化指明了方向。

实际应用

在实际应用层面，FLEXI数据集对智能语音助手、实时翻译系统和应急响应系统等场景具有重要价值。基于该数据集的评估结果，开发者能够优化语音助手在用户突然改变话题时的应对策略，提升对话的自然流畅度。在紧急场景下，系统可以学习主动打断用户以提供关键信息，这在医疗急救、安全预警等高风险环境中尤为重要。此外，该数据集还有助于改善跨语言实时翻译系统在重叠对话场景下的表现，确保翻译的准确性和及时性。

数据集最近研究