MMSU

github2026-02-12 更新2026-02-13 收录

下载链接：

https://github.com/dingdongwang/MMSU

下载链接

链接失效反馈

官方服务：

资源简介：

MMSU（大规模多任务口语语言理解和推理基准）是一个综合性基准，用于评估多模态模型中的细粒度口语语言理解和推理能力。它通过47个子任务系统地捕捉日常语音中真实世界语言现象的变化，包括语音学、韵律学、修辞学、句法学、语义学和副语言学，涵盖感知和高级推理能力。该基准包含5000个精心策划的音频-问题-答案对，源自多样化的真实录音。

MMSU (Massive Multitask Spoken Language Understanding and Reasoning Benchmark) is a comprehensive benchmark designed to evaluate fine-grained spoken language understanding and reasoning capabilities in multimodal models. It systematically captures the variations of real-world linguistic phenomena in daily speech across 47 subtasks, covering phonetics, prosody, rhetoric, syntax, semantics, and paralinguistics, and encompasses both perceptual and advanced reasoning abilities. This benchmark contains 5,000 carefully curated audio-question-answer pairs derived from diverse real-world recordings.

创建时间：

2026-02-11

原始信息汇总

MMSU 数据集概述

数据集基本信息

数据集名称：MMSU (Massive Multi-task Spoken Language Understanding and Reasoning Benchmark)
发布状态：已被 ICLR 2026 接收。
数据来源：基于多样化的真实录音构建。
数据规模：包含 5,000 个精心策划的音频-问题-答案对。
获取地址：https://huggingface.co/datasets/ddwang2000/MMSU

数据集核心目标

MMSU 是一个用于评估多模态模型细粒度口语理解和推理能力的综合性基准。它通过涵盖语音学、韵律学、修辞学、句法学、语义学和副语言学等 47 个子任务，系统地捕捉了日常语音中真实世界语言现象的多样性，横跨感知和高层次推理能力。

任务分类体系

MMSU 采用三级分类法组织任务和评估维度：

第一级：区分感知能力与推理能力。
第二级：
- 感知与推理能力均被划分为语言学和副语言学。
- 语言学关注语言结构、意义和使用。
- 副语言学捕捉影响解释的声学特征，如情感、音高和音量。
第三级：
- 语言学进一步分为语义学（意义和上下文理解）和音系学（声音模式，如音调和韵律）。
- 副语言学分为说话者特质（反映固有的声音特征）和说话风格（捕捉可变的表达元素）。

评估内容与排行榜

评估领域：在语义学、音系学和副语言学领域，对多模态模型的感知与推理维度进行评估。
排行榜：提供了包括 Gemini-1.5-Pro、Qwen2.5-Omni-7B、Kimi-Audio 在内的多个模型的详细性能对比（平均分及各子领域得分）。
提交与更新：排行榜将持续更新，欢迎提交结果至联系邮箱：dingdongwang@link.cuhk.edu.hk。

使用与评估流程

模型推理：使用提供的脚本在 MMSU 基准上进行推理，数据集会自动从 Hugging Face 加载。用户需修改 mmsu_inference.py 以集成自己的模型。 bash python mmsu_inference.py --output_jsonl model_pred.jsonl
基准评估：使用评估脚本对推理结果进行评估。 bash python mmsu_evaluation.py model_pred.jsonl

引用格式

@article{wang2025mmsu, title={MMSU: A Massive Multi-task Spoken Language Understanding and Reasoning Benchmark}, author={Dingdong Wang and Jincenzi Wu and Junan Li and Dongchao Yang and Xueyuan Chen and Tianhua Zhang and Helen Meng}, journal={arXiv preprint arXiv:2506.04779}, year={2025}, }

搜集汇总

数据集介绍

构建方式

在语音理解与推理领域，构建一个能够全面评估模型能力的基准测试集至关重要。MMSU数据集通过精心设计的构建流程，从多样化的真实录音中提取了5000个音频-问题-答案三元组，覆盖了语音学、韵律学、修辞学、句法学、语义学及副语言学等47个子任务。该数据集采用三层分类体系，将任务划分为感知与推理两大维度，并进一步细分为语言学与副语言学，其中语言学涵盖语义与音系学，副语言学则聚焦于说话者特质与表达风格。这种结构化的构建方式确保了数据集能够系统捕捉日常语音中丰富的语言现象变异。

特点

MMSU数据集以其大规模多任务特性脱颖而出，致力于评估细粒度的口语理解与推理能力。数据集不仅涵盖了从基础感知到高级推理的广泛能力谱系，还通过语言学与副语言学的双重维度，深入探索了语音中的结构、意义及情感表达。其独特的任务分类体系使得模型能够在语义、音系及副语言等多个领域接受全面测试，从而揭示模型在不同语言现象下的表现差异。这种多维度的评估框架为研究社区提供了一个深入分析模型弱点的工具。

使用方法

为了充分利用MMSU数据集进行模型评估，研究者可通过Huggingface平台直接获取数据集资源。评估流程分为两个步骤：首先，使用提供的推理脚本对模型进行测试，生成预测结果文件；随后，通过评估脚本对预测结果进行分析，计算模型在各个子任务及总体维度上的性能指标。这一标准化的评估管道确保了结果的可比性与可复现性，同时允许研究者灵活集成自定义模型，从而推动语音理解技术的持续进步。

背景与挑战

背景概述

随着多模态人工智能技术的飞速发展，语音语言理解与推理成为衡量模型智能水平的关键维度。MMSU（大规模多任务口语理解与推理基准）由香港中文大学等机构的研究团队于2025年创建，旨在系统评估模型在真实口语场景下的细粒度理解与推理能力。该基准通过47个子任务，涵盖语音学、韵律、修辞、句法、语义及副语言学等多个层面，构建了包含5000个音频-问题-答案对的高质量数据集。其核心研究问题聚焦于如何全面量化模型在感知与高级推理两方面的表现，为多模态模型的发展提供了重要的评估标准，对推动口语人工智能领域的进步具有深远影响。

当前挑战

MMSU数据集致力于解决口语理解与推理这一复杂领域问题，其核心挑战在于如何精准捕捉并评估模型对日常语音中多样且细微的语言现象的理解能力，包括语义歧义、情感语调识别及上下文推理等。在构建过程中，研究团队面临数据收集与标注的严峻挑战，需从真实多样的录音中筛选并构建高质量问答对，确保任务覆盖语音学、副语言学等多个维度，同时保持数据的平衡性与代表性。此外，设计能够系统区分感知与推理能力的评估框架，并实现自动化评测流程，亦是该基准构建中的关键难点。

常用场景

经典使用场景

在语音语言理解与推理研究领域，MMSU数据集作为一项大规模多任务基准，其经典应用场景在于系统评估多模态模型在细粒度口语理解与推理方面的综合能力。该数据集通过涵盖语音学、韵律学、修辞学、句法学、语义学及副语言学等47个子任务，模拟了日常语音中丰富的语言现象变异，为研究者提供了一个全面检验模型在感知与高级推理层面表现的标准化平台。

实际应用

在实际应用层面，MMSU数据集为智能语音助手、交互式对话系统及无障碍通信工具的开发提供了关键的评估依据。基于其构建的模型能够更准确地理解口语中的隐含意图、情感色彩及说话人特质，从而提升语音交互的自然度与可靠性。该基准有助于推动技术在实际场景中的落地，例如在客服自动化、教育辅助及医疗问诊等领域实现更智能的语音交互体验。

衍生相关工作

围绕MMSU数据集，学术界已衍生出一系列经典研究工作，特别是在多模态语言模型评估与能力分析方面。例如，基于该基准的评测结果揭示了不同规模模型在语义推理与副语言感知上的性能差异，促进了如Qwen2.5-Omni、Gemini-1.5-Pro等模型的迭代优化。这些工作不仅深化了对模型能力边界认知，也催生了针对特定子任务（如韵律理解或情感识别）的专项改进模型。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集