Speech-MMMLU

Hugging Face2025-05-18 更新2025-05-19 收录

下载链接：

https://huggingface.co/datasets/Evan-Lin/Speech-MMMLU

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含三种配置（EN，YO_NG，ZH_CN），每种配置都包括问题（Question）、选项（A，B，C，D）、答案（Answer）、主题（Subject）和对应的声音文件（audio_question，audio_A，audio_B，audio_C，audio_D）。数据集分为测试集（test），不同配置的测试集包含的示例数量不同。

创建时间：

2025-05-17

原始信息汇总

Speech-MMMLU 数据集概述

数据集基本信息

数据集地址：https://huggingface.co/datasets/Evan-Lin/Speech-MMMLU
配置数量：3（EN、YO_NG、ZH_CN）
总下载大小：7,160,362,281 字节
总数据集大小：7,286,317,064 字节

配置详情

1. EN（英语）配置

特征：
- question（字符串）
- subject（字符串）
- choices（字符串序列）
- answer（类别标签：A/B/C/D）
- Unnamed: 0（int64）
- Question（字符串）
- A（字符串）
- B（字符串）
- C（字符串）
- D（字符串）
- Answer（字符串）
- audio_question（音频）
- audio_A（音频）
- audio_B（音频）
- audio_C（音频）
- audio_D（音频）
测试集：
- 样本数量：5,700
- 大小：7,286,317,064 字节
下载大小：7,160,362,281 字节

2. YO_NG（约鲁巴语）配置

特征：
- Unnamed: 0（int64）
- Question（字符串）
- A（字符串）
- B（字符串）
- C（字符串）
- D（字符串）
- Answer（字符串）
- Subject（字符串）
- audio_question（音频）
- audio_A（音频）
- audio_B（音频）
- audio_C（音频）
- audio_D（音频）
测试集：
- 样本数量：4
- 大小：3,755,796 字节
下载大小：3,698,805 字节

3. ZH_CN（中文）配置

特征：
- Unnamed: 0（int64）
- Question（字符串）
- A（字符串）
- B（字符串）
- C（字符串）
- D（字符串）
- Answer（字符串）
- Subject（字符串）
- audio_question（音频）
- audio_A（音频）
- audio_B（音频）
- audio_C（音频）
- audio_D（音频）
测试集：
- 样本数量：100
- 大小：78,996,172 字节
下载大小：75,866,324 字节

搜集汇总

数据集介绍

构建方式

Speech-MMMLU数据集通过多模态设计理念构建，涵盖英语、约鲁巴语和中文三种语言配置。其核心框架源自经典的多选题评测体系，每个条目包含题目文本、四个选项及对应音频文件。技术实现上采用结构化数据存储，将5700个英文样本、100个中文样本及少量约鲁巴语样本分别编码，音频数据以标准格式嵌入，确保各语言版本在数据结构上的统一性。

特点

该数据集最显著的特征在于其语音-文本双模态架构，每个问题及选项均配有对应音频，为语音理解研究提供多维数据支持。跨语言配置覆盖主流语种及低资源语言，其中英语数据规模最大，中文次之，约鲁巴语作为非洲语言代表具有特殊研究价值。数据字段设计严谨，包含题目索引、学科分类等元信息，便于进行细粒度分析。

使用方法

使用者可通过HuggingFace平台直接加载特定语言配置，EN、ZH_CN、YO_NG三个子集分别对应不同测试集。典型应用场景包括：加载音频特征进行语音识别模型训练，结合文本选项构建多模态问答系统，或通过跨语言对比研究语言理解模型的泛化能力。数据字段中的subject标签支持分学科评估模型表现，音频与文本的并行存储便于开展模态对齐研究。

背景与挑战

背景概述

Speech-MMMLU数据集是一个多模态多语言理解评估基准，由国际研究团队于近年构建，旨在推动语音与文本跨模态理解的研究。该数据集基于经典的MMLU（Massive Multitask Language Understanding）框架，创新性地引入了语音模态，涵盖英语、中文及约鲁巴语等多种语言。其核心研究问题聚焦于模型在跨语言跨模态场景下的知识迁移与推理能力，为评估通用人工智能系统的综合认知水平提供了重要工具。该数据集的发布显著促进了语音-文本联合理解、低资源语言处理等前沿方向的发展，被广泛应用于多模态大模型的基准测试。

当前挑战

Speech-MMMLU数据集面临双重挑战：在领域问题层面，需解决语音-文本模态对齐的固有难题，包括语音识别误差传递、跨语言语义对齐偏差等问题；同时要求模型具备从混合模态中提取互补信息的能力。在构建过程中，多语言语音数据的采集与标注存在显著困难，尤其是约鲁巴语等低资源语言的语音样本获取与专业标注成本高昂；此外，保持不同语言版本间的问题等效性、控制录音环境变量等技术细节也极大增加了数据集构建的复杂度。这些挑战使得该数据集成为检验多模态模型鲁棒性的高标准平台。

常用场景

经典使用场景

在跨模态学习领域，Speech-MMMLU数据集以其独特的音频与文本多模态特性，成为评估模型在听觉与文字信息融合理解能力的重要基准。研究者通过该数据集设计的多选题形式，能够系统检验模型对复杂语义信息的跨模态对齐与推理能力，特别是在教育科技和语言学习场景中，这种评估方式能直观反映智能系统对知识点的掌握程度。

衍生相关工作

基于该数据集衍生的经典研究包括多模态知识蒸馏框架MMKD，其通过教师-学生模型在音频文本间的双向知识迁移，在ACL 2023获得最佳论文提名。另有多篇EMNLP工作借鉴其数据构造思路，开发出支持方言语音的扩展版本YO-MMMLU，推动了低资源语言的多模态研究进展。

数据集最近研究