five

FD-Bench

收藏
arXiv2025-07-25 更新2025-07-29 收录
下载链接:
https://github.com/pengyizhou/FD-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
FD-Bench是一个用于评估全双工语音对话系统(FDSDS)的数据集,由南洋理工大学与阿里巴巴集团共同创建。该数据集模拟了用户与AI助手之间的自然、全双工语音对话,包括旅行、食物、娱乐和健身等多个领域。数据集包含293个对话回合,每个回合最多有4次中断,总共有约1200次中断。数据集还包括了不同难度的中断,以及背景噪音,用于评估模型在不同条件下的鲁棒性。

FD-Bench is a dataset for evaluating Full-Duplex Speech Dialogue Systems (FDSDS), co-created by Nanyang Technological University and Alibaba Group. This dataset simulates natural, full-duplex speech conversations between users and AI assistants, covering multiple domains such as travel, food, entertainment and fitness. It contains 293 dialogue turns, with up to 4 interruptions per turn, totaling approximately 1200 interruptions overall. Additionally, the dataset includes interruptions of varying difficulty levels and background noise, which are utilized to assess the robustness of models under different conditions.
提供机构:
南洋理工大学阿里巴巴-NTU全球电子可持续性合作实验室, 新加坡南洋理工大学计算机与数据科学学院, 阿里巴巴集团, 新加坡
创建时间:
2025-07-25
原始信息汇总

FD-Bench数据集概述

数据集简介

FD-Bench是一个专为全双工语音对话系统(FD-SDS)设计的综合基准测试管道。该基准提供标准化指标和评估协议,用于评估对话AI系统在实时双向通信场景中的性能。

数据集内容

  • 评估数据类型
    • 客观指标:WER、BLEU、响应时间、中断处理
    • 主观指标:自然度、连贯性、轮换适当性
    • 测试场景:多种对话类型和中断模式

数据集获取

  • 下载方式: bash huggingface-cli download pengyizhou/FD-Bench-Audio-Input --local-dir ./data

  • 数据来源:Hugging Face平台

使用方式

  • 快速开始: bash python benchmark/benchmarking.py --model_path YOUR_MODEL_PATH --data_path ./data python benchmark/compute-wer.py --predictions YOUR_PREDICTIONS --references ./data/references

  • TTS数据生成

    • 支持ChatTTS、CosyVoice2、F5TTS等多种TTS模型

评估模型

  • Freeze-omni
  • Moshi
  • VITA-1.5

相关资源

  • 论文:https://arxiv.org/abs/2507.19040
  • 演示页面:https://pengyizhou.github.io/FD-Bench/
  • 数据集地址:https://huggingface.co/collections/pengyizhou/fd-bench-audio-68674bd6de6feea91ba3ce37

许可信息

  • 许可证类型:NTUitive License
  • 许可证文件:LICENSE.txt

引用方式

bibtex @article{fd-bench2024, title={FD-Bench: A Full-Duplex Benchmarking Pipeline Designed for Full Duplex Spoken Dialogue Systems}, author={Your Name and Co-authors}, journal={arXiv preprint arXiv:XXXX.XXXXX}, year={2024} }

联系方式

  • 邮箱:yizhou004@e.ntu.edu.sg
  • GitHub Issues:https://github.com/pengyizhou/FD-Bench/issues
搜集汇总
数据集介绍
main_image_url
构建方式
FD-Bench数据集的构建采用了先进的自动化流程,结合了大型语言模型(LLM)、文本到语音(TTS)和自动语音识别(ASR)技术。首先,利用GPT-4o生成模拟对话文本,涵盖多种话题和中断类型。随后,通过ChatTTS、F5TTS和CosyVoice2等先进的语音合成模型生成用户语音,并引入MUSAN噪声和Librispeech参考语音以模拟真实环境。最终,数据集包含293个多轮对话和1,200次中断,总时长约40小时。
使用方法
FD-Bench数据集的使用方法主要围绕其自动化评估流程展开。用户可以将待测试的FDSDS模型接入数据集提供的服务器-客户端架构中,通过模拟语音输入和噪声环境来评估模型的中断处理能力、延迟管理和响应质量。评估指标包括客观指标(如中断成功率、延迟时间)和主观指标(如GPT-4o生成的评分)。数据集还提供了详细的实验设置和结果分析工具,帮助用户快速定位模型性能瓶颈。
背景与挑战
背景概述
FD-Bench是由新加坡南洋理工大学与阿里巴巴集团联合研发的全双工语音对话系统(FDSDS)评测基准,于2025年7月正式提出。该数据集针对传统轮询式语音交互系统在实时打断处理、延迟控制和噪声鲁棒性等方面的不足,创新性地整合了大型语言模型(LLMs)、文本转语音(TTS)和自动语音识别(ASR)技术,构建了包含293组模拟对话、1200次打断事件的40小时语音语料库。其核心研究价值在于首次系统化定义了全双工场景下的九项量化指标,如中断响应延迟(IRD)和早期中断率(EIR),为提升人机对话的自然流畅度提供了标准化评估框架,推动了智能语音交互领域从回合制向实时对话的范式转变。
当前挑战
FD-Bench需解决两大核心挑战:在领域问题层面,传统语音对话系统难以准确识别用户实时打断意图(如肯定确认、话题转移等五类中断场景),导致对话连贯性断裂,该数据集通过多维度时序标注(如SRIRate成功回复中断率)量化系统中断处理能力;在构建过程中,需克服合成语音的自然度与多样性平衡难题,采用CosyVoice2等三种TTS引擎配合MUSAN噪声库,模拟不同信噪比(0/10/20dB)的噪声干扰场景,并设计易/中/难三级中断间隔(2-10秒)以评估系统鲁棒性。实验表明现有模型在频繁打断条件下SRR(成功回复率)下降达40%,暴露出现有技术对动态对话流处理的局限性。
常用场景
经典使用场景
FD-Bench数据集专为全双工语音对话系统(FDSDS)设计,其经典使用场景包括评估系统在实时对话中的中断处理能力。通过模拟真实对话中的用户中断、背景噪音和多样化语音输入,该数据集能够全面测试系统在复杂环境下的表现。例如,研究人员可以利用该数据集评估系统在用户频繁打断、话题转换或背景噪音干扰时的响应质量和实时性能。
解决学术问题
FD-Bench解决了全双工语音对话系统研究中缺乏标准化评估工具的问题。传统评估方法主要关注逐轮对话性能,而忽略了实时中断和交互的自然性。该数据集通过引入中断率、响应延迟、语音识别准确率等多项指标,填补了学术研究中全双工能力评估的空白,为系统优化提供了量化依据。
实际应用
在实际应用中,FD-Bench数据集可用于开发和优化智能语音助手、客服机器人等需要实时交互的系统。例如,在智能家居场景中,系统需要快速响应用户的打断指令;在车载语音系统中,系统需在噪音环境下保持高准确率。该数据集通过模拟多样化场景,帮助提升系统在真实环境中的鲁棒性和用户体验。
数据集最近研究
最新研究方向
随着人机交互技术的快速发展,全双工语音对话系统(FDSDS)已成为当前研究的热点。FD-Bench作为专为FDSDS设计的基准测试工具,其最新研究方向主要集中在如何更准确地评估系统在实时对话中的表现,特别是在用户中断和噪声干扰等复杂场景下的鲁棒性。通过结合大型语言模型(LLMs)、文本到语音(TTS)和自动语音识别(ASR)技术,FD-Bench能够全面测试系统的中断处理能力、延迟管理和响应质量。这一研究方向不仅推动了FDSDS技术的进步,也为未来更自然、更智能的语音交互系统奠定了坚实的基础。
相关研究论文
  • 1
    FD-Bench: A Full-Duplex Benchmarking Pipeline Designed for Full Duplex Spoken Dialogue Systems南洋理工大学阿里巴巴-NTU全球电子可持续性合作实验室, 新加坡南洋理工大学计算机与数据科学学院, 阿里巴巴集团, 新加坡 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作