FD-Bench

Name: FD-Bench
Creator: 南洋理工大学阿里巴巴-NTU全球电子可持续性合作实验室, 新加坡南洋理工大学计算机与数据科学学院, 阿里巴巴集团, 新加坡
Published: 2025-07-25 15:51:22
License: 暂无描述

arXiv2025-07-25 更新2025-07-29 收录

下载链接：

https://github.com/pengyizhou/FD-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

FD-Bench是一个用于评估全双工语音对话系统（FDSDS）的数据集，由南洋理工大学与阿里巴巴集团共同创建。该数据集模拟了用户与AI助手之间的自然、全双工语音对话，包括旅行、食物、娱乐和健身等多个领域。数据集包含293个对话回合，每个回合最多有4次中断，总共有约1200次中断。数据集还包括了不同难度的中断，以及背景噪音，用于评估模型在不同条件下的鲁棒性。

FD-Bench is a dataset for evaluating Full-Duplex Speech Dialogue Systems (FDSDS), co-created by Nanyang Technological University and Alibaba Group. This dataset simulates natural, full-duplex speech conversations between users and AI assistants, covering multiple domains such as travel, food, entertainment and fitness. It contains 293 dialogue turns, with up to 4 interruptions per turn, totaling approximately 1200 interruptions overall. Additionally, the dataset includes interruptions of varying difficulty levels and background noise, which are utilized to assess the robustness of models under different conditions.

提供机构：

南洋理工大学阿里巴巴-NTU全球电子可持续性合作实验室, 新加坡南洋理工大学计算机与数据科学学院, 阿里巴巴集团, 新加坡

创建时间：

2025-07-25

原始信息汇总

FD-Bench数据集概述

数据集简介

FD-Bench是一个专为全双工语音对话系统(FD-SDS)设计的综合基准测试管道。该基准提供标准化指标和评估协议，用于评估对话AI系统在实时双向通信场景中的性能。

数据集内容

评估数据类型：
- 客观指标：WER、BLEU、响应时间、中断处理
- 主观指标：自然度、连贯性、轮换适当性
- 测试场景：多种对话类型和中断模式

数据集获取

下载方式： bash huggingface-cli download pengyizhou/FD-Bench-Audio-Input --local-dir ./data
数据来源：Hugging Face平台

使用方式

快速开始： bash python benchmark/benchmarking.py --model_path YOUR_MODEL_PATH --data_path ./data python benchmark/compute-wer.py --predictions YOUR_PREDICTIONS --references ./data/references
TTS数据生成：
- 支持ChatTTS、CosyVoice2、F5TTS等多种TTS模型

评估模型

Freeze-omni
Moshi
VITA-1.5

许可信息

许可证类型：NTUitive License
许可证文件：LICENSE.txt

引用方式

bibtex @article{fd-bench2024, title={FD-Bench: A Full-Duplex Benchmarking Pipeline Designed for Full Duplex Spoken Dialogue Systems}, author={Your Name and Co-authors}, journal={arXiv preprint arXiv:XXXX.XXXXX}, year={2024} }

联系方式

邮箱：yizhou004@e.ntu.edu.sg
GitHub Issues：https://github.com/pengyizhou/FD-Bench/issues

搜集汇总

数据集介绍

构建方式

FD-Bench数据集的构建采用了先进的自动化流程，结合了大型语言模型（LLM）、文本到语音（TTS）和自动语音识别（ASR）技术。首先，利用GPT-4o生成模拟对话文本，涵盖多种话题和中断类型。随后，通过ChatTTS、F5TTS和CosyVoice2等先进的语音合成模型生成用户语音，并引入MUSAN噪声和Librispeech参考语音以模拟真实环境。最终，数据集包含293个多轮对话和1,200次中断，总时长约40小时。

使用方法

FD-Bench数据集的使用方法主要围绕其自动化评估流程展开。用户可以将待测试的FDSDS模型接入数据集提供的服务器-客户端架构中，通过模拟语音输入和噪声环境来评估模型的中断处理能力、延迟管理和响应质量。评估指标包括客观指标（如中断成功率、延迟时间）和主观指标（如GPT-4o生成的评分）。数据集还提供了详细的实验设置和结果分析工具，帮助用户快速定位模型性能瓶颈。

背景与挑战

背景概述

FD-Bench是由新加坡南洋理工大学与阿里巴巴集团联合研发的全双工语音对话系统（FDSDS）评测基准，于2025年7月正式提出。该数据集针对传统轮询式语音交互系统在实时打断处理、延迟控制和噪声鲁棒性等方面的不足，创新性地整合了大型语言模型（LLMs）、文本转语音（TTS）和自动语音识别（ASR）技术，构建了包含293组模拟对话、1200次打断事件的40小时语音语料库。其核心研究价值在于首次系统化定义了全双工场景下的九项量化指标，如中断响应延迟（IRD）和早期中断率（EIR），为提升人机对话的自然流畅度提供了标准化评估框架，推动了智能语音交互领域从回合制向实时对话的范式转变。

当前挑战

FD-Bench需解决两大核心挑战：在领域问题层面，传统语音对话系统难以准确识别用户实时打断意图（如肯定确认、话题转移等五类中断场景），导致对话连贯性断裂，该数据集通过多维度时序标注（如SRIRate成功回复中断率）量化系统中断处理能力；在构建过程中，需克服合成语音的自然度与多样性平衡难题，采用CosyVoice2等三种TTS引擎配合MUSAN噪声库，模拟不同信噪比（0/10/20dB）的噪声干扰场景，并设计易/中/难三级中断间隔（2-10秒）以评估系统鲁棒性。实验表明现有模型在频繁打断条件下SRR（成功回复率）下降达40%，暴露出现有技术对动态对话流处理的局限性。

常用场景

经典使用场景

FD-Bench数据集专为全双工语音对话系统（FDSDS）设计，其经典使用场景包括评估系统在实时对话中的中断处理能力。通过模拟真实对话中的用户中断、背景噪音和多样化语音输入，该数据集能够全面测试系统在复杂环境下的表现。例如，研究人员可以利用该数据集评估系统在用户频繁打断、话题转换或背景噪音干扰时的响应质量和实时性能。

解决学术问题

FD-Bench解决了全双工语音对话系统研究中缺乏标准化评估工具的问题。传统评估方法主要关注逐轮对话性能，而忽略了实时中断和交互的自然性。该数据集通过引入中断率、响应延迟、语音识别准确率等多项指标，填补了学术研究中全双工能力评估的空白，为系统优化提供了量化依据。

实际应用

在实际应用中，FD-Bench数据集可用于开发和优化智能语音助手、客服机器人等需要实时交互的系统。例如，在智能家居场景中，系统需要快速响应用户的打断指令；在车载语音系统中，系统需在噪音环境下保持高准确率。该数据集通过模拟多样化场景，帮助提升系统在真实环境中的鲁棒性和用户体验。

数据集最近研究