MTR-DuplexBench

github2026-04-21 更新2026-04-22 收录

下载链接：

https://github.com/ZhangHe0918/MTR-DuplexBench

下载链接

链接失效反馈

官方服务：

资源简介：

MTR-DuplexBench是一个用于评估全双工语音语言模型多轮对话的综合基准数据集。

MTR-DuplexBench is a comprehensive benchmark dataset for evaluating multi-turn dialogue capabilities of full-duplex speech-language models.

创建时间：

2026-04-10

原始信息汇总

MTR-DuplexBench 数据集概述

基本信息

数据集名称：MTR-DuplexBench
论文状态：已被 ACL 2026 Findings 接收
论文链接：https://arxiv.org/abs/2511.10262
数据集托管地址：https://huggingface.co/datasets/Jeff0918/MTR-DuplexBench
代码仓库地址：https://github.com/ZhangHe0918/MTR-DuplexBench

数据集目的

用于对全双工语音语言模型进行多轮对话的全面评估。

数据集内容与结构

数据集包含评估脚本和评估数据。

目录结构

MTR-DuplexBench/ ├── code/ # 评估脚本目录 │ └── Eval/ │ ├── asr_incremental_save.py │ ├── eval_1_scenario.py │ ├── eval_2_scenarios.py │ ├── eval_3_scenarios.py │ ├── eval_4_scenarios.py │ ├── eval_single_scenario_background.py │ ├── eval_single_scenario_pause_handling.py │ ├── gpt4o_mark_in_turn_GT_condor.py │ ├── instruction_following_evaluation.py │ └── safety_evaluation.py ├── data/ # 评估数据目录 │ ├── Conversational_Features/ │ ├── Instruction_Following/ │ ├── Safety/ │ ├── Dialogue_Quality/ │ └── Scenarios_encoding/ └── envs/ # 环境配置目录

评估维度

数据集从四个维度评估模型：

维度	评估脚本	音频格式	LLM 评判器
对话质量	`gpt4o_mark_in_turn_GT_condor.py`	MP3	GPT-4o
对话特征（单场景）	`eval_single_scenario_*.py`, `eval_1/2_scenario.py`	WAV	—
对话特征（多场景）	`eval_1/2/3/4_scenarios.py`	WAV	—
指令遵循	`instruction_following_evaluation.py`	WAV	GPT-4o
安全性	`safety_evaluation.py`	WAV	GPT-4o

数据文件说明

场景编码文件

位于 data/Scenarios_encoding/ 目录下，定义了对话结构、话轮转换模式和时间信息。

维度	编码文件路径
对话特征（单场景）	`Scenarios_encoding/single_scenario/scenario_encoding_{smooth,interruption,pause,background}.json`
对话特征（多场景）	`Scenarios_encoding/multi_scenarios/scenario_encoding_{1,2,3,4}.json`
指令遵循	`Scenarios_encoding/instruction_following/scenario_encoding_{smooth,interruption}.json`
安全性	`Scenarios_encoding/safety/scenario_encoding_{smooth,interruption}.json`
对话质量	`Scenarios_encoding/dialogue_quality/semantic_turned_time_v3.jsonl`

评估数据源

对话质量：data/Dialogue_Quality/*.mp3
对话特征：data/Conversational_Features/original/*.wav 或 data/Conversational_Features/woPAUSE/*.wav
指令遵循：data/Instruction_Following/audios/*.wav 和 data/Instruction_Following/instruction_following_data.json
安全性：data/Safety/audios/*.wav 和 data/Safety/safety_data.json

评估流程

读取场景编码：从 data/Scenarios_encoding/ 加载相应的 JSON 文件。
模型推理：构建自定义推理管道，输入音频和场景信息。模型输出必须保存为立体声音频（左声道=用户音频，右声道=模型音频）。
运行评估：使用对应的评估脚本对输出音频进行分析，脚本会自动处理 ASR 转录和指标计算。

核心工具

ASR 工具：asr_incremental_save.py，基于 Whisper 为立体声音频文件提供 ASR 转录，支持左右声道独立转录和增量结果保存。

环境配置

envs/ 目录包含用于评估特定模型的 conda 环境 YAML 和 requirements 文件：

bailing/：用于 Bailing 模型
freeze_and_eval/：用于冻结模型评估
moshi/：用于 Moshi 模型
vocalnet/：用于 VocalNet 模型

依赖项

核心依赖：openai, whisper, torch。注意：对话质量、指令遵循和安全性评估使用 GPT-4o 作为 LLM 评判器，需要设置 OPENAI_API_KEY 环境变量。

联系方式

在 GitHub (https://github.com/ZhangHe0918/MTR-DuplexBench/issues) 提交问题或在 HuggingFace Community (https://huggingface.co/datasets/Jeff0918/MTR-DuplexBench) 发起讨论。
邮箱：zhanghe_0918@163.com 或 wenqian.cui@link.cuhk.edu.hk

引用

bibtex @inproceedings{mtr_duplexbench_2026, title={MTR-DuplexBench: A Comprehensive Audio Dataset for Multi-Turn Dialogue Evaluation}, author={He Zhang, Wenqian Cui, Haoning Xu, Xiao-Hui Li, Lei Zhu, Haoli Bai, Irwin King, Shaohua Ma}, booktitle={Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL)}, year={2026} }

搜集汇总

数据集介绍

构建方式

在语音对话系统评估领域，MTR-DuplexBench的构建采用了多维度场景编码与真实对话模拟相结合的方法。数据集通过精心设计的场景编码文件，定义了包括平滑对话、打断处理、暂停应对及背景噪声等多种对话情境的结构、话轮转换模式与时间信息。这些编码与对应的音频素材共同构成评估基础，确保了对话流程的规范性与可控性。数据收集与标注过程依托于标准化的音频处理流程，并利用自动化脚本进行场景生成与对齐，为全双工语音语言模型的综合性能测评提供了结构化的数据支撑。

特点

该数据集的核心特点在于其全面且细粒度的多维度评估框架。它涵盖了对话质量、会话特征、指令遵循与安全性四大评估维度，每个维度均配有独立的场景编码与评估脚本。数据集特别设计了单场景与多场景相结合的评估模式，能够模拟从基础话轮转换到复杂交互情境的连续谱系。其评估流程深度融合了自动语音识别技术与大型语言模型评判机制，尤其是利用GPT-4o作为语义层面的评判者，实现了对模型输出在语义恰当性、行为合规性及安全性上的自动化、可量化的综合测评。

使用方法

使用该数据集进行评估遵循标准化的三步流程。首先，研究人员需从指定路径加载相应评估维度的场景编码文件，以获取对话的结构化定义。接着，构建自定义的模型推理管道，将编码信息与源音频输入待评估模型，并生成符合要求的立体声音频输出，其中左声道为用户音频，右声道为模型音频。最后，运行对应的评估脚本，脚本将自动调用Whisper进行语音识别，并依据预设指标计算模型在特定维度上的表现分数，最终生成结构化的JSON或JSONL格式结果报告，便于后续分析与比较。

背景与挑战

背景概述

在语音语言模型迈向全双工交互的时代，对话系统的自然性与鲁棒性成为核心研究议题。MTR-DuplexBench数据集由香港中文大学等机构的研究团队于2026年创建，旨在为多轮对话评估提供一个全面且标准化的基准。该数据集聚焦于评估模型在复杂对话场景下的表现，涵盖对话质量、会话特征、指令遵循及安全性四个维度，其设计理念在于推动语音模型从单向响应转向动态、实时的全双工交互，对语音人工智能领域的发展具有重要的引领作用。

当前挑战

MTR-DuplexBench致力于解决全双工语音语言模型在多轮对话中面临的评估难题，其核心挑战在于如何系统性地量化模型在真实对话场景下的表现，例如在 interruptions、pauses、background noise 等复杂情境中的 turn-taking 行为。在数据集构建过程中，研究者需克服多维度数据标注的一致性难题，包括设计精确的 scenario encoding 以模拟动态对话流程，以及协调不同评估维度（如语义质量与安全性）的平衡，确保评估框架既全面又高效。

常用场景

经典使用场景

在语音对话系统研究领域，MTR-DuplexBench数据集被广泛用于评估全双工语音语言模型在多轮对话中的综合表现。其经典使用场景集中于模拟真实对话中的复杂交互模式，例如流畅的轮流发言、中断处理、停顿应对以及背景噪声干扰等情境。研究人员通过该数据集提供的结构化场景编码与多维度评估脚本，能够系统性地测试模型在动态对话环境下的响应能力，从而深入分析模型在自然对话流中的行为特征与性能边界。

解决学术问题

该数据集有效解决了语音对话系统中长期存在的若干关键学术问题，包括如何量化评估模型在复杂对话场景下的语义连贯性、指令遵循准确度以及安全合规性。通过引入对话质量、会话特征、指令遵循与安全性四个维度的精细化评估框架，MTR-DuplexBench为学术界提供了统一的基准测试平台，使得不同模型之间的性能比较成为可能，并推动了全双工对话系统在理论建模与算法优化方面的实质性进展。

衍生相关工作

围绕MTR-DuplexBench数据集，学术界已衍生出一系列经典研究工作。例如，基于其评估框架，研究者们提出了针对特定对话特征（如中断检测、背景噪声鲁棒性）的专项优化模型；同时，该数据集也催生了多模态对话评估方法的发展，促进了语音与文本联合建模技术的创新。此外，许多后续研究借鉴其多维评估思想，构建了面向特定领域（如医疗咨询、教育辅导）的对话评估基准，进一步拓展了全双工语音系统的研究边界与应用范畴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集