MMSU|口语理解数据集|语音处理数据集

arXiv2025-06-05 更新2025-06-07 收录

口语理解

语音处理

下载链接：

https://huggingface.co/datasets/ddwang2000/MMSU

下载链接

链接失效反馈

资源简介：

MMSU是一个大规模的多任务口语理解和推理基准，由香港中文大学的研究团队创建。该数据集包含5000个经过精心策划的音频-问题-答案三元组，跨越47个不同的任务。数据集系统地融入了广泛的语音现象，包括语音学、韵律、修辞、句法学、语义学和副语言学。MMSU旨在通过评估14个先进的SpeechLLMs来建立口语理解的新标准，并为开发更复杂的人机语音交互系统提供有价值的见解。

提供机构：

香港中文大学

创建时间：

2025-06-05

AI搜集汇总

数据集介绍

构建方式

MMSU数据集的构建过程分为四个阶段：首先，通过与语言学专家合作设计基于语言学理论的47项任务；其次，从权威教材和在线资源收集多选题，并利用GPT-4o生成干扰项；第三，优先采用开源真实语音数据，针对特定语音学任务进行专业录音；最后经过多轮人工审核确保数据质量。该数据集包含5,000个经过专家评审的音频-问题-答案三元组，其中76.74%采用真实录音，13.44%为专业录制，9.82%使用Azure TTS合成。

特点

作为首个系统整合语言学理论的语音理解基准，MMSU具有三大特征：1) 涵盖10类非语言声音、13种英语口音等细粒度声学特征；2) 基于语音学、韵律学等六大语言学分支设计47项任务，包括语码转换问答、语调推理等创新任务；3) 通过专业录音和专家评审确保数据质量，建立包含感知与推理能力的双层评估体系。数据集平均音频时长7.01秒，问题平均长度12.45个词，实现任务间的均衡分布。

使用方法

MMSU采用标准化四选项单选题形式进行评估，研究者需为待测语音大语言模型提供音频片段及包含问题和选项的文本指令。为避免位置偏差，答案选项随机排列且分布均衡。评估时需使用统一优化的指令跟随提示，确保模型间对比公平性。该基准支持细粒度分析模型在语义、音系学和副语言学等维度的表现，其分层任务结构（感知/推理×语言学/副语言学）为诊断模型能力短板提供系统框架。

背景与挑战

背景概述

MMSU（Massive Multi-task Spoken Language Understanding and Reasoning Benchmark）是由香港中文大学的研究团队于2025年提出的一个大规模多任务口语语言理解与推理基准数据集。该数据集旨在填补当前语音大语言模型（SpeechLLMs）在细粒度感知和复杂推理能力评估方面的空白。MMSU包含5,000个精心设计的音频-问题-答案三元组，覆盖47个不同的任务，系统地整合了语音学、韵律学、修辞学、句法学、语义学及副语言学等多个语言学分支的理论。数据集的构建基于真实场景的语音数据，并经过语言学专家的严格审核，确保了数据的质量和代表性。MMSU为口语语言理解领域的研究提供了全面的评估框架，推动了语音交互系统的发展。

当前挑战

MMSU数据集面临的挑战主要体现在两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，口语语言理解需要模型同时处理语义内容、副语言特征（如情感、语速、音高）和音韵特征（如韵律、语调、节奏），这对现有模型的细粒度感知和复杂推理能力提出了极高要求。在构建过程中，挑战包括：1）如何系统整合多维度语言学理论设计评估任务；2）如何确保真实语音数据的多样性和代表性；3）如何通过专家审核机制保证数据质量；4）如何平衡不同任务的数据分布以进行全面评估。这些挑战使得MMSU成为当前最具综合性和理论深度的口语理解评估基准。

常用场景

经典使用场景

MMSU数据集作为大规模多任务口语语言理解与推理基准，其经典使用场景集中在评估语音大语言模型（SpeechLLMs）对自然语音中复杂声学特征和语言现象的感知与推理能力。通过涵盖47项跨语音学、韵律学、修辞学等语言学子领域的任务，该数据集为研究者提供了系统化测试模型在真实对话场景中处理非语言声音、口音识别、语调推理等核心能力的标准化平台。在语音交互系统开发中，研究人员常利用其5000个专家标注的音频-问题-答案三元组，验证模型对副语言特征（如情绪、语速）和语音学特征（如爆破音、音节结构）的联合理解性能。

解决学术问题

MMSU有效解决了当前语音理解研究中的三个关键学术问题：首先，填补了缺乏整合语言学理论的多维度口语评估基准的空白，通过系统纳入语音学、韵律学等六大语言学分支，建立了理论驱动的评估框架；其次，突破了传统语音数据集仅关注语音识别或情感检测的局限，首次实现了对语音中隐含语义（如双关语解读）、复杂推理（如基于语调的意图推断）等高层认知任务的量化评估；最重要的是，揭示了现有SpeechLLMs在副语言信息处理上的显著缺陷，如实验显示最优模型在韵律相关任务上准确率仅为53.6%，为模型优化提供了明确方向。

衍生相关工作

MMSU的发布催生了一系列重要衍生研究，包括Qwen2.5-Omni和Kimi-Audio等开源模型的优化，这些模型在数据集上的竞争性表现（60.57%准确率）推动了端到端语音理解架构的发展。基于其多任务框架，研究者进一步开发了针对特定子任务（如讽刺检测、长语音摘要）的专用模型。数据集构建方法论也影响了后续基准设计，如采用专家循环增强策略生成干扰项的方案被Dynamic-SUPERB等基准借鉴，其语言学理论驱动的任务分类体系更成为语音理解领域的新范式。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。

国家青藏高原科学数据中心收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

PDT Dataset

PDT数据集是由山东计算机科学中心（国家超级计算济南中心）和齐鲁工业大学（山东省科学院）联合开发的无人机目标检测数据集，专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本，共计5775张图像，涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注，旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术，旨在提高无人机在植物保护中的目标识别精度，解决传统检测模型在实际应用中的不足。

arXiv 收录

TCIA: The Cancer Imaging Archive

TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库，包含多种癌症类型的影像数据，如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息，旨在支持癌症研究和临床应用。

www.cancerimagingarchive.net 收录

舌象数据集

本数据集共包含舌象图像资料700份，其中每份图像数量不等；图像是在同一采集环境下，用使用道生四诊仪（DS-1）设备采集，拍摄时受试者取正坐位，并保持情绪稳定，采集舌象前嘱受试者避免食用带颜色的食物，避免染苔，必要时可漱口后再采集，分别取舌根、舌中、舌尖、舌边4个部位进行分割，并提取舌色、苔色特征。

国家人口健康科学数据中心收录