FLEXI

github2025-10-04 更新2025-10-11 收录

下载链接：

https://github.com/ChristineCHEN274/FLEXI

下载链接

链接失效反馈

官方服务：

资源简介：

FLEXI是一个用于基准测试全双工人类-大语言模型语音交互的数据集，包含六个全双工交互场景的数据，用于评估语音交互系统的性能

FLEXI is a dataset developed for benchmarking full-duplex human-large language model speech interactions, which encompasses data from six full-duplex interaction scenarios to evaluate the performance of speech interaction systems.

创建时间：

2025-09-16

原始信息汇总

FLEXI 数据集概述

数据集基本信息

数据集名称: FLEXI: BENCHMARKING FULL-DUPLEX HUMAN-LLM SPEECH INTERACTION
研究论文: arXiv:2509.22243
数据存储位置:
- 文本版本数据位于GitHub仓库的dataset文件夹
- 完整数据可从Hugging Face获取：https://huggingface.co/datasets/qibai/FLEXI/tree/main

数据集内容

核心场景: 包含六种全双工人机语音交互场景
数据格式: 提供文本版本数据和完整音频数据

使用流程

环境配置

Python版本: 3.11
依赖安装: pip install -r requirements.txt

主要功能模块

推理模块 (inference文件夹)
- 提供四种模型的推理脚本
- 每个模型有专用的README说明文档
时间对齐转录生成
- 使用脚本: python ./tools/asr_tool/asr.py
- 输出: 包含时间戳对齐转录的output.json文件
评估模块
- turn_taking: python ./evaluate/eval_turn_taking.py
- pause_handing: 需指定模型轮转延迟参数
- user_backchannel: python ./evaluate/user_backchannel.py
- user_interrupt: python ./evaluate/user_interrupt.py
- model_backchannel: 需先生成模型预测分布
- model_interrupt: python ./evaluate/model_interrupt.py

引用信息

bibtex @article{ge2025flexi, title={FLEXI: Benchmarking Full-duplex Human-LLM Speech Interaction}, author={Ge, Yuan and Chen, Saihan and Xiao, Jingqi and Liu, Xiaoqian and Xiao, Tong and Xiang, Yan and Yu, Zhengtao and Zhu, Jingbo}, journal={arXiv preprint arXiv:2509.22243}, year={2025} }

搜集汇总

数据集介绍

构建方式

在语音交互研究领域，FLEXI数据集的构建采用了多场景仿真策略，系统性地模拟了六类全双工交互模式。通过精心设计的对话流程与角色分配，研究人员采集了涵盖话轮转换、停顿处理、用户反馈及打断行为等核心交互维度的语音样本。每个场景均基于真实人机对话逻辑构建，确保数据在时序对齐与语义连贯性方面具备高度真实性，为全双工交互研究提供了结构化数据基础。

特点

该数据集的核心特征在于其全面覆盖了全双工交互的六类关键场景，包括双向打断与反馈机制。所有语音数据均配备精确的时间戳标注，支持对交互时序动态的微观分析。数据集通过标准化格式存储，兼容主流语音处理工具链，其多模态特性为探究人机对话中的重叠发言与实时响应行为提供了独特的研究视角。

使用方法

研究者可通过克隆代码库并配置指定Python环境快速启用数据集。使用流程涵盖三个关键阶段：首先运行预置的推理脚本生成交互语音，继而通过专用工具提取时间对齐的文本转录，最终针对不同场景执行专项评估脚本。评估模块支持自定义参数配置，如话轮转换延迟设定，确保实验设计可灵活适配各类全双工交互模型的性能验证需求。

背景与挑战

背景概述

随着大语言模型在人机交互领域的深入应用，传统单向对话模式已难以满足自然交流需求。FLEXI数据集由研究团队于2025年创建，聚焦全双工人机语音交互场景，通过构建六类典型对话情境，系统评估模型在实时对话中的动态响应能力。该数据集填补了人机语音交互评估体系的空白，为构建拟人化对话系统提供了关键数据支撑，推动交互式人工智能向更自然的方向演进。

当前挑战

全双工交互需解决语音重叠检测、话轮转换时机判断等核心问题，同时面临多模态数据对齐的技术难点。在数据构建过程中，需精确标注毫秒级时间戳以捕捉交互动态，并协调真实对话场景中不可预测的中断与反馈行为。此外，评估体系需兼顾语义连贯性与时间敏感性，这对标注一致性与算法适应性提出了双重考验。

常用场景

经典使用场景

在人机语音交互领域，FLEXI数据集专注于评估全双工对话系统的实时响应能力。该数据集通过模拟六种典型对话场景——包括话轮转换、停顿处理、用户反馈与打断、模型反馈与打断等——为研究者提供了标准化的测试环境。这些场景设计紧密贴合自然对话的复杂性，能够全面检验语言模型在动态交互中的流畅性与协调性。

实际应用

在智能助手与虚拟客服等实际应用场景中，FLEXI数据集为提升交互体验提供了关键支持。基于该数据集训练的模型能够更精准地处理用户实时打断行为，实现毫秒级响应的话轮切换，显著降低对话中的非自然停顿。这种能力使得车载语音系统、在线教育平台等需要高实时性的场景能够实现更接近人类对话的流畅交互。

衍生相关工作

该数据集已催生多项对话系统领域的创新研究。基于FLEXI的基准测试框架，研究者开发了面向低延迟话轮转换的专用模型架构，并衍生出结合强化学习的自适应中断处理算法。这些工作不仅完善了全双工交互的理论体系，更推动了诸如动态语音端点检测、多模态反馈融合等技术在后续研究中的深化发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集