MSU-Bench

github2025-08-11 更新2025-08-14 收录

下载链接：

https://github.com/ASLP-lab/MSU-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

MSU-Bench是一个用于评估多说话者会话理解的综合基准，具有以说话者为中心的设计。它汇集了与会话理解相关的说话者问题，并将这些问题组织成四个难度递增的层次，共包含25个任务和超过1,200个开放式问答。这个分层框架覆盖了四个渐进层级：单说话者静态属性理解、单说话者动态属性理解、多说话者背景理解和多说话者交互理解。

MSU-Bench is a comprehensive benchmark for evaluating multi-speaker conversational understanding, featuring a speaker-centric design. It compiles speaker-related questions relevant to conversational understanding, organizes these questions into four hierarchies of increasing difficulty, and encompasses a total of 25 tasks and over 1,200 open-ended Q&A pairs. This hierarchical framework covers four progressive levels: single-speaker static attribute understanding, single-speaker dynamic attribute understanding, multi-speaker background understanding, and multi-speaker interactive understanding.

创建时间：

2025-08-10

原始信息汇总

MSU-Bench 数据集概述

数据集简介

MSU-Bench 是一个专注于多说话人对话理解的综合性基准测试，采用以说话人为中心的设计。该数据集包含超过1,200个开放式问答，涵盖25个任务，分为四个难度递增的层级。

层级结构

单说话人静态属性理解
单说话人动态属性理解
多说话人背景理解
多说话人交互理解

数据概览

会话时长：60-120秒
试验数量：1232
说话人数量：每会话2-4人
语言：中文(CN)和英文(EN)
标注内容：
- 说话人分离
- 性别、年龄组、口音
- 情绪、语音流、音质
数据格式：
- 音频(.wav)
- 元数据(.json)
- 文本转录(.txt)

数据来源

名称	语言	领域	描述	时长	开源
MDT-AD015	EN	电话对话	双人对话，含背景噪声	304.80分钟	✅
CHiME-6	EN	远场多人对话	家庭晚餐场景	433.21分钟	✅
R3VQA-Audio	EN	复杂影视场景	含背景音乐和事件噪声	2470.66分钟	✅
MDT-AA007	CN	近场多人对话	播客对话	378×6分钟	✅
AliMeeting	CN	远场会议	会议场景	252分钟	✅
CN-Film	CN	影视场景	含背景音乐和事件噪声	1135分钟	✅

数据集组成

MSU-Bench/ │ ├── audio/ # 原始音频文件 ├── transcripts/ # 文本转录 ├── metadata/ # 说话人属性、情绪标签等 └── examples/ # 示例对话

使用方式

克隆仓库 bash git clone https://github.com/ASLP-lab/MSU-Bench.git cd MSU-Bench
安装依赖 bash pip install -r requirements.txt

引用

bibtex @dataset{msu-bench2025, title={MSU-Bench: Towards Understanding the Conversational Multi-Speaker Scenarios}, author={Shuai Wang, Zhaokai Sun, Zhennan Lin, Chenyou Wang, Zhou Pan, Lei Xie}, year={2025}, url={https://github.com/ASLP-lab/MSU-Bench} }

搜集汇总

数据集介绍

构建方式

MSU-Bench数据集通过整合六种开源多说话人对话数据集构建而成，涵盖中英文两种语言及多样声学环境。采用自动化标注与人工筛选相结合的流程，首先通过开源工具（SDASR/说话人属性分析）对60-120秒的音频片段进行标注，随后设计严格的问答生成管道自动产生与说话人相关的开放性问题。数据构建过程特别注重层次化任务设计，形成从单说话人静态属性到多说话人交互理解的渐进式四层架构。

特点

该数据集以说话人为核心设计理念，包含1232个开放式问答对，覆盖25项具体任务。其突出特点在于四层渐进式能力评估体系：单说话人静态属性理解、单说话人动态属性分析、多说话人背景推理以及多说话人交互理解。数据样本标注维度丰富，包含说话人身份、副语言特征、对话事件和场景背景等多模态信息，音频格式采用标准化.wav文件并辅以结构化的JSON元数据和文本转录。

使用方法

使用者可通过GitHub仓库获取完整数据集，目录结构清晰划分为音频文件、文本转录、元数据和示例对话。提供Python接口加载JSON格式的元数据，内含说话人属性及对话时序信息。数据集配套可视化工具可绘制说话人轮换时间线，便于分析对话交互模式。评估时建议按照四层能力架构逐步测试模型性能，官方提供的基准结果包含开源模型与商业系统的横向对比。

背景与挑战

背景概述

MSU-Bench是由ASLP-lab于2025年推出的多说话人对话理解基准数据集，旨在推动对话系统中多说话人场景的研究。该数据集由Shuai Wang等研究人员构建，聚焦于说话人中心的多层次理解任务，涵盖从静态属性到复杂交互推理的25个任务。数据集整合了六种开源对话数据源，包括中英文电话会话、远场会议及影视对话等多样化场景，总时长超过100小时。其分层评估框架为语音识别、说话人分离及对话理解等领域提供了标准化测评基准，显著促进了多模态对话系统的发展。

当前挑战

在领域问题层面，MSU-Bench需解决多说话人场景中重叠语音分离、动态属性追踪及跨说话人关系推理等核心挑战，这些问题在传统单说话人数据集中未被充分涵盖。构建过程中面临音频标注复杂度高、多语言多场景数据对齐困难等挑战，特别是说话人情感与语音流变特征的细粒度标注需要兼顾自动化流程与人工校验。此外，保持四层能力评估框架的任务平衡性，以及处理影视数据中背景音乐与事件噪声的干扰，均为数据集构建的关键难点。

常用场景

经典使用场景

在语音处理和自然语言理解领域，MSU-Bench数据集被广泛应用于评估多说话人对话理解能力。该数据集通过分层任务设计，从单说话人静态属性识别到多说话人交互推理，为研究者提供了系统化的评估框架。其包含的1200多个开放式问答对，覆盖了电话对话、远场会议和影视场景等多种真实环境，成为测试模型在复杂声学条件下理解能力的黄金标准。

衍生相关工作

围绕MSU-Bench已产生一系列重要研究成果，包括基于层次化注意力机制的多说话人识别系统、融合声学与语言特征的对话理解框架等。该数据集推动了说话人中心对话理解（SCDU）这一新兴研究方向的发展，相关论文在INTERSPEECH等顶级会议形成专题讨论。其构建的评估基准也被多个国际比赛采用作为官方评测标准。

数据集最近研究