MTR-DuplexBench
收藏MTR-DuplexBench 数据集概述
基本信息
- 数据集名称:MTR-DuplexBench
- 论文状态:已被 ACL 2026 Findings 接收
- 论文链接:https://arxiv.org/abs/2511.10262
- 数据集托管地址:https://huggingface.co/datasets/Jeff0918/MTR-DuplexBench
- 代码仓库地址:https://github.com/ZhangHe0918/MTR-DuplexBench
数据集目的
用于对全双工语音语言模型进行多轮对话的全面评估。
数据集内容与结构
数据集包含评估脚本和评估数据。
目录结构
MTR-DuplexBench/ ├── code/ # 评估脚本目录 │ └── Eval/ │ ├── asr_incremental_save.py │ ├── eval_1_scenario.py │ ├── eval_2_scenarios.py │ ├── eval_3_scenarios.py │ ├── eval_4_scenarios.py │ ├── eval_single_scenario_background.py │ ├── eval_single_scenario_pause_handling.py │ ├── gpt4o_mark_in_turn_GT_condor.py │ ├── instruction_following_evaluation.py │ └── safety_evaluation.py ├── data/ # 评估数据目录 │ ├── Conversational_Features/ │ ├── Instruction_Following/ │ ├── Safety/ │ ├── Dialogue_Quality/ │ └── Scenarios_encoding/ └── envs/ # 环境配置目录
评估维度
数据集从四个维度评估模型:
| 维度 | 评估脚本 | 音频格式 | LLM 评判器 |
|---|---|---|---|
| 对话质量 | gpt4o_mark_in_turn_GT_condor.py |
MP3 | GPT-4o |
| 对话特征(单场景) | eval_single_scenario_*.py, eval_1/2_scenario.py |
WAV | — |
| 对话特征(多场景) | eval_1/2/3/4_scenarios.py |
WAV | — |
| 指令遵循 | instruction_following_evaluation.py |
WAV | GPT-4o |
| 安全性 | safety_evaluation.py |
WAV | GPT-4o |
数据文件说明
场景编码文件
位于 data/Scenarios_encoding/ 目录下,定义了对话结构、话轮转换模式和时间信息。
| 维度 | 编码文件路径 |
|---|---|
| 对话特征(单场景) | Scenarios_encoding/single_scenario/scenario_encoding_{smooth,interruption,pause,background}.json |
| 对话特征(多场景) | Scenarios_encoding/multi_scenarios/scenario_encoding_{1,2,3,4}.json |
| 指令遵循 | Scenarios_encoding/instruction_following/scenario_encoding_{smooth,interruption}.json |
| 安全性 | Scenarios_encoding/safety/scenario_encoding_{smooth,interruption}.json |
| 对话质量 | Scenarios_encoding/dialogue_quality/semantic_turned_time_v3.jsonl |
评估数据源
- 对话质量:
data/Dialogue_Quality/*.mp3 - 对话特征:
data/Conversational_Features/original/*.wav或data/Conversational_Features/woPAUSE/*.wav - 指令遵循:
data/Instruction_Following/audios/*.wav和data/Instruction_Following/instruction_following_data.json - 安全性:
data/Safety/audios/*.wav和data/Safety/safety_data.json
评估流程
- 读取场景编码:从
data/Scenarios_encoding/加载相应的 JSON 文件。 - 模型推理:构建自定义推理管道,输入音频和场景信息。模型输出必须保存为立体声音频(左声道=用户音频,右声道=模型音频)。
- 运行评估:使用对应的评估脚本对输出音频进行分析,脚本会自动处理 ASR 转录和指标计算。
核心工具
- ASR 工具:
asr_incremental_save.py,基于 Whisper 为立体声音频文件提供 ASR 转录,支持左右声道独立转录和增量结果保存。
环境配置
envs/ 目录包含用于评估特定模型的 conda 环境 YAML 和 requirements 文件:
bailing/:用于 Bailing 模型freeze_and_eval/:用于冻结模型评估moshi/:用于 Moshi 模型vocalnet/:用于 VocalNet 模型
依赖项
核心依赖:openai, whisper, torch。
注意:对话质量、指令遵循和安全性评估使用 GPT-4o 作为 LLM 评判器,需要设置 OPENAI_API_KEY 环境变量。
联系方式
- 在 GitHub (https://github.com/ZhangHe0918/MTR-DuplexBench/issues) 提交问题或在 HuggingFace Community (https://huggingface.co/datasets/Jeff0918/MTR-DuplexBench) 发起讨论。
- 邮箱:zhanghe_0918@163.com 或 wenqian.cui@link.cuhk.edu.hk
引用
bibtex @inproceedings{mtr_duplexbench_2026, title={MTR-DuplexBench: A Comprehensive Audio Dataset for Multi-Turn Dialogue Evaluation}, author={He Zhang, Wenqian Cui, Haoning Xu, Xiao-Hui Li, Lei Zhu, Haoli Bai, Irwin King, Shaohua Ma}, booktitle={Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (ACL)}, year={2026} }




