FullDuplex-Bench

Name: FullDuplex-Bench
Creator: 台湾大学通信工程研究所, 加州大学伯克利分校, 华盛顿大学, 麻省理工学院计算机科学人工智能实验室
Published: 2025-03-07 02:59:16
License: 暂无描述

arXiv2025-03-07 更新2025-03-08 收录

下载链接：

https://github.com/DanielLin94144/Full-Duplex-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

FullDuplex-Bench是由台湾大学、加州大学伯克利分校、华盛顿大学和麻省理工学院计算机科学人工智能实验室共同创建的一个基准数据集。该数据集旨在系统评估全双工语音对话模型在会话行为方面的关键能力，如暂停处理、背信道、顺滑的会话转换和用户中断管理。数据集通过模拟实时用户交互，为每个评估维度创建特定的测试样本，并利用时间对齐的转录进行自动评估。

FullDuplex-Bench is a benchmark dataset co-developed by National Taiwan University, University of California, Berkeley, University of Washington, and the Computer Science and Artificial Intelligence Laboratory (CSAIL) of Massachusetts Institute of Technology (MIT). This dataset is designed to systematically evaluate the key conversational capabilities of full-duplex speech dialogue models, including pause handling, backchanneling, seamless turn-taking, and user interruption management. By simulating real-time user interactions, the dataset generates targeted test samples for each evaluation dimension, and enables automated evaluation using time-aligned transcripts.

提供机构：

台湾大学通信工程研究所, 加州大学伯克利分校, 华盛顿大学, 麻省理工学院计算机科学人工智能实验室

创建时间：

2025-03-07

搜集汇总

数据集介绍

构建方式

FullDuplex-Bench数据集旨在评估全双工语音对话模型的会话能力，包括暂停处理、回声、轮流发言和中断管理。该数据集的构建基于对现有语音对话模型评估方法的不足，特别是对于全双工模型实时交互方面的评估。数据集的构建使用了自动化的评估指标，以确保评估的一致性和可重复性。数据集的框架通过将用户音频流输入到开源的全双工SDM中，产生时间同步的输出，然后进行后处理以在转录级别对齐两个流，从而能够在多个维度上进行自动评估。

使用方法

使用FullDuplex-Bench数据集进行评估时，首先需要准备特定的测试样本，收集模型的语音响应，并使用CrispyWhisper工具生成时间对齐的转录。然后，根据不同的评估维度，使用专门的指标进行评估。例如，对于暂停处理，可以使用暂停处理率来评估模型是否在用户发言期间的自然停顿期间保持沉默；对于回声，可以使用回声频率和Jensen-Shannon散度来评估模型是否在适当的时间提供回声；对于轮流发言，可以使用平均响应延迟来评估模型是否能够及时响应；对于用户中断，可以使用GPT-4o评分和中断后延迟来评估模型的响应质量和响应速度。

背景与挑战

背景概述

FullDuplex-Bench 数据集旨在解决语音对话模型在实时交互方面的挑战。该数据集由台湾大学、加州大学伯克利分校、华盛顿大学和麻省理工学院的研究人员于 2025 年创建。核心研究问题是评估全双工语音对话模型（SDM）的轮次转换能力。FullDuplex-Bench 的创建对相关领域产生了重要影响，它提供了一个开放和标准化的评估基准，以促进语音对话模型的研究，并鼓励开发更具交互性和自然对话的系统。

当前挑战

FullDuplex-Bench 数据集面临的主要挑战包括：1) 评估全双工语音对话模型在轮次转换方面的能力；2) 构建过程中遇到的挑战。FullDuplex-Bench 旨在通过自动指标对 SDM 的交互性能进行一致和可重复的评估，并解决现有评估方法的局限性，例如专注于基于轮次的指标或高级语料库分析。此外，FullDuplex-Bench 还需要处理英语以外的语料库，以及更准确地检测背渠道，并考虑非语言表达。

常用场景

经典使用场景

FullDuplex-Bench 数据集主要用于评估全双工语音对话模型在轮次交替能力方面的表现。通过模拟真实用户的语音输入，该数据集能够评估模型在处理暂停、背书、轮次交替和用户中断等方面的能力。这使得研究人员能够更全面地了解模型在实时交互中的表现，并针对性地进行优化。

解决学术问题

FullDuplex-Bench 数据集解决了全双工语音对话模型评估的难题。现有的评估方法往往只关注基于回合的指标或高级语料库分析，而忽视了全双工模型实时交互的方面。FullDuplex-Bench 数据集提供了开放的标准化评估基准，有助于推动语音对话模型的研究和发展。

实际应用

FullDuplex-Bench 数据集在实际应用中具有广泛的前景。例如，在语音助手、智能客服等场景中，全双工语音对话模型能够提供更加自然和流畅的交互体验。FullDuplex-Bench 数据集的评估结果可以帮助开发者优化模型的轮次交替能力，从而提升用户体验。

数据集最近研究