Multi-Bench

Name: Multi-Bench
Creator: StepFun Inc,Shanghai,China; Nanyang Technological University,Singapore; The University of New South Wales,Sydney,Australia; Peking University,Beijing,China
Published: 2025-11-02 16:22:30
License: 暂无描述

arXiv2025-11-02 更新2025-11-06 收录

下载链接：

https://mia11939.github.io/MULTI-BENCH/demo.html

下载链接

链接失效反馈

官方服务：

资源简介：

Multi-Bench是一个专门用于评估语音对话模型在多轮互动对话中情感智力能力的基准数据集。该数据集由StepFun Inc,Shanghai,China; Nanyang Technological University,Singapore; The University of New South Wales,Sydney,Australia; Peking University,Beijing,China的研究团队创建。它包含约3.2K个样本，涵盖了从情感识别到复杂推理和互动对话的任务，并通过一个可重复的评价框架支持。数据集旨在解决现有基准主要关注单轮交互的问题，并着重于评估模型在多轮对话中的情感智力和推理能力。

Multi-Bench is a benchmark dataset specifically tailored for evaluating the emotional intelligence capacities of speech dialogue models in multi-turn interactive conversations. Developed by research teams from StepFun Inc. (Shanghai, China), Nanyang Technological University (Singapore), The University of New South Wales (Sydney, Australia), and Peking University (Beijing, China), this dataset comprises approximately 3.2K samples spanning tasks from emotion recognition to complex reasoning and interactive dialogue, and is backed by a reproducible evaluation framework. The dataset aims to mitigate the shortcoming that most existing benchmarks primarily focus on single-turn interactions, with a core focus on assessing the emotional intelligence and reasoning capabilities of models during multi-turn conversations.

提供机构：

StepFun Inc,Shanghai,China; Nanyang Technological University,Singapore; The University of New South Wales,Sydney,Australia; Peking University,Beijing,China

创建时间：

2025-11-02

原始信息汇总

MULTI-Bench 数据集概述

数据集简介

MULTI-Bench 是首个专门为评估口语对话模型在多轮交互对话中的表现而设计的基准，重点关注情感智能能力。该基准采用分层结构，包含基础情感理解与推理轨道和高级情感支持与应用轨道，涵盖从情感识别到复杂推理和交互对话的五个精心设计的任务。

数据规模与构成

总样本量：3,212 个样本
覆盖范围：从基础情感识别到复杂推理和交互对话
数据来源：整合 MELD、NVSpeech、PsyQA、PsyDTCorpus 和 MultiDialog 等多个数据集
场景多样性：涵盖日常对话和心理支持等多样化主题，包括单轮和多轮设置

任务设计

数据集包含五个子任务：

情感识别
副语言识别
情感推理
风格推理
交互对话

评估框架

采用多轮交互式评估框架，包含以下核心组件：

用户画像构建：指定场景、目标和用户特征
多样化用户属性提取：使用 GPT4o 和 DeepSeek-r1 分别从英文和中文对话中提取
话题多样性保证：基于 LLM 的话题标注和分层抽样
情感语音合成：使用 Step-Audio-TTS 将文本转换为情感音频信号
动态对话循环：采用 DeepSeek-V3.1 作为聊天 LLM，Step-Audio-TTS 作为语音合成器
情感调节机制：设计 38 个情感提示，涵盖悲伤、恐惧、快乐、放松、兴奋、幽默、犹豫和同理心等多样化类别

模型评估结果

在 MULTI-Bench 的八个子集上评估了六个代表性口语对话模型。结果显示：

当前模型在基础理解任务上表现良好
在高级多轮交互对话和推理相关任务上仍有改进空间
特别是在情感意识和应用方面需要进一步提升

搜集汇总

数据集介绍

构建方式

在语音对话系统评估领域，Multi-Bench通过整合多个高质量开源数据集构建而成，涵盖情感理解与推理、情感支持与应用两大维度。具体采用层次化数据筛选流程，从UnderEmotion、NVSpeech等数据源中提取样本，并运用大语言模型进行质量过滤与语义增强。针对多轮交互任务，设计动态对话框架，通过用户画像构建、情感条件机制与语音合成模块的协同，生成包含日常聊天与心理辅导场景的3,212个样本，确保数据在单轮与多轮对话中的平衡分布与情感复杂性。

特点

该数据集显著特点在于其首创的多轮交互式情感智能评估体系，突破传统单轮评测局限。通过基础轨道与高级轨道的双层架构，系统覆盖从情感识别到复杂推理的五个核心任务，兼具语音与文本双模态评估能力。其特色体现在真实对话场景的模拟，采用动态终止机制与情感提示检索策略，支持对副语言特征和上下文情感的细粒度分析。数据样本涵盖中英双语，融合日常交流与专业心理支持场景，为语音对话模型提供兼具广度与深度的评估基准。

使用方法

使用本数据集时需遵循其分层评估协议，首先通过基础轨道任务检验模型的情感感知能力，再进入高级轨道评估多轮交互表现。评估过程采用端到端对话循环框架，将用户文本经情感语音合成后输入待测模型，通过Gemini与DeepSeek双评估器分别从声学与文本维度进行打分。研究者需配置动态对话终止条件，并利用预设的情感提示库优化上下文生成。该框架支持最大十轮对话深度，可通过标准化接口实现与主流语音对话模型的快速集成与可复现测试。

背景与挑战

背景概述

随着语音对话模型在听觉人工智能领域的快速发展，其多轮交互能力评估成为研究焦点。Multi-Bench由StepFun与南洋理工大学等机构于2025年联合推出，作为首个专注于多轮交互场景中情感智能评估的基准数据集。该数据集通过分层评估框架，涵盖情感理解与推理、情感支持与应用两大维度，包含五项精心设计的任务和约3200个样本，填补了现有基准在真实对话情境评估中的空白。

当前挑战

该数据集致力于解决语音对话模型在多轮交互中情感智能评估的复杂性挑战，包括对上下文依赖型情感推理、多模态特征融合的评估难点。构建过程中面临数据标注一致性的技术瓶颈，需平衡语音副语言特征与文本语义的协同标注，同时需克服多源心理对话数据在跨文化语境下的适配性问题。

常用场景

经典使用场景

在语音对话系统研究领域，Multi-Bench作为首个专注于多轮交互式对话情感智能评估的基准，其经典应用场景在于系统化检验语音对话模型在连续对话中感知、推理与应用情感信息的能力。该数据集通过基础情感理解与高级情感应用双轨结构，模拟真实人际交流中情感状态的动态演变，为模型在心理咨询、日常闲聊等场景下的情感交互能力提供标准化测试环境。

衍生相关工作

该数据集的发布催生了多项聚焦多轮情感对话的衍生研究。例如基于其评估框架开发的情感条件生成机制，推动了语音合成与情感计算的深度融合；受其层次化任务设计启发，研究者构建了面向特定场景的细粒度情感交互数据集。这些工作共同拓展了情感语音对话在跨文化适应性、长程情感记忆等方向的研究边界。

数据集最近研究