Mobile-MMLU

Name: Mobile-MMLU
Creator: 阿布扎比人工智能大学(VILA Lab), 普林斯顿大学, 苹果公司
Published: 2025-03-27 01:59:56
License: 暂无描述

arXiv2025-03-27 更新2025-03-28 收录

下载链接：

https://github.com/VILA-Lab/Mobile-MMLU

下载链接

链接失效反馈

官方服务：

资源简介：

Mobile-MMLU是一个为移动智能量身定制的大型基准数据集，由阿布扎比人工智能大学、普林斯顿大学和苹果公司共同创建。该数据集包含80个与移动设备使用情景相关的领域，共计16186个问题，这些问题被精心设计以反映现实世界中的移动使用模式。数据集的构建经历了领域选择、问题生成、相似性过滤和人工AI协作验证等步骤，以确保问题的质量和相关性。Mobile-MMLU旨在提供一个标准化的评估框架，用于开发和比较针对移动设备优化的语言模型，推动移动计算环境中生产力和决策的进步。

Mobile-MMLU is a large-scale benchmark dataset tailored for mobile intelligence, co-created by Mohamed bin Zayed University of Artificial Intelligence, Princeton University, and Apple Inc. This dataset covers 80 domains related to mobile device usage scenarios, with a total of 16,186 questions, which are carefully designed to reflect real-world mobile usage patterns. The dataset construction involves multiple steps including domain selection, question generation, similarity filtering, and human-AI collaborative validation, to ensure the quality and relevance of the questions. Mobile-MMLU aims to provide a standardized evaluation framework for developing and comparing language models optimized for mobile devices, so as to advance productivity and decision-making in mobile computing environments.

提供机构：

阿布扎比人工智能大学(VILA Lab), 普林斯顿大学, 苹果公司

创建时间：

2025-03-27

原始信息汇总

Mobile-MMLU 数据集概述

数据集简介

Mobile-MMLU 是一个专为评估移动兼容大型语言模型（LLMs）设计的综合性基准测试，涵盖教育、医疗保健和技术等80个不同领域。该基准测试重新定义了移动智能评估标准，重点关注移动环境中的实际应用性和性能指标。

关键特性

全面覆盖：包含80个不同领域的精选问题
移动优化：专为评估移动兼容LLMs设计
问题数量：包含16,186个问题，涵盖基于场景的问题
严格评估：系统评估性能、效率和准确性
实际应用：关注日常场景中的实际用例

数据集版本

Mobile-MMLU：基础版本
Mobile-MMLU-Pro：更紧凑且复杂的版本

数据获取

评估与排行榜

实时排行榜展示不同移动LLMs在各类别和指标上的最新性能排名

使用指南

支持的后端

hf：HF Transformers
gptqmodel：用于GPTQ量化模型

响应生成

安装依赖包： bash pip install torch transformers datasets pandas tqdm
生成模型响应： bash python generate_answers.py --model_name your_model_name --batch_size 32 --device cuda

响应格式

生成CSV文件包含：

question_id：问题唯一标识符
predicted_answer：模型预测答案（A、B、C或D）

提交结果

通过评估门户提交预测结果CSV文件

搜集汇总

数据集介绍

构建方式

Mobile-MMLU数据集的构建采用了四阶段流程：首先通过WikiHow、Stack Exchange等平台筛选80个移动相关领域；随后利用GPT-4O生成情景化多选题，并采用MPNet嵌入进行相似度过滤（余弦相似度<0.98）；继而通过人机协同验证机制，由Claude-3.5、Gemini-2.0等大模型投票确定多选题正确答案；最终构建包含16,186个问题的标准集和9,497个高难度问题的Pro子集，特别设计了错误选项长度≥正确答案的防偏置策略。

特点

该数据集具有鲜明的移动场景特性：覆盖旅行规划、急救指导等80个日常生活领域，问题平均长度30.84词，显著短于传统学术基准；采用订单不变性设计，确保选项位置随机化不影响评估结果；Mobile-MMLU-Pro子集通过多模型一致性筛选，难度超越原数据集，其移动相关性评分（5.88）达MMLU基准的1.88倍，在摄影指导、社交媒体等高频移动场景中表现尤为突出。

使用方法

使用Mobile-MMLU需通过lm-eval-harness框架进行零样本评估，重点关注推理延迟、能耗等移动端指标。标准集适用于全面测试模型基础能力，Pro子集则用于高压环境下的稳健性验证。评估时需注意：3.5%的时间敏感问题需定期更新验证；5.8%多选题需采用多标签评估策略；建议配合MRScore指标分析模型在具体移动场景的适用性，代码库提供标准化评估流程和基线模型对比结果。

背景与挑战

背景概述

Mobile-MMLU是由MBZUAI的VILA实验室于2025年推出的大型移动智能语言理解基准数据集，旨在填补移动端大语言模型评估的空白。随着LLMs在移动设备部署需求的激增，传统面向服务器和桌面的评估标准无法反映移动场景特有的交互模式、资源限制和隐私要求。该数据集包含16,186道涵盖80个移动相关领域的选择题，涉及旅行规划、急救知识等日常生活场景，并创新性地引入Mobile-MMLU-Pro子集，通过多模型一致性筛选机制构建更具挑战性的评估基准。其首创的移动相关性评分体系（MRScore）和话题语义空间分析表明，该数据集与MMLU等传统基准存在显著领域差异，为移动端AI发展提供了关键评估工具。

当前挑战

该数据集主要解决移动场景下语言模型评估的两大核心挑战：领域适应性方面，需克服传统基准对移动交互模式（如碎片化、情境感知需求）的覆盖不足；技术实现层面，需平衡移动设备的严格资源限制（内存<4GB/延迟<500ms）与复杂语义理解需求。构建过程中面临三大难题：1) 移动特异性问题设计需避免选项长度偏差（通过错误选项≥正确答案长度策略）；2) 多模型一致性验证需协调GPT-4o/Claude-3.5/Gemini-2.0的预测差异（5.8%问题存在多正确答案）；3) 语义去重时MPNet嵌入的相似度阈值（cos<0.98）需在数据多样性和质量间取得平衡。

常用场景

经典使用场景

Mobile-MMLU数据集专为移动智能语言理解任务设计，广泛应用于评估大型语言模型在移动设备上的性能。其经典使用场景包括虚拟助手、语言翻译应用和实时信息查询等移动端AI应用。通过涵盖80个移动相关领域的16,186个问题，该数据集能够全面测试模型在真实移动环境中的表现，如食谱建议、旅行规划和日常任务处理等典型移动交互场景。

实际应用

在实际应用层面，Mobile-MMLU直接支持移动生产力工具和决策辅助系统的开发。其重点评估的移动特定指标（如响应质量和能耗）对优化移动虚拟助手、本地化翻译服务和情境感知应用具有重要指导意义。数据集中包含的紧急医疗指导、社交媒体操作等实用场景问题，使其成为开发真正满足移动用户需求的关键基准。

衍生相关工作

Mobile-MMLU衍生了一系列移动AI领域的经典研究，包括HammerBench对移动场景函数调用能力的评估、MobileAIBench对移动设备上不同量化级别模型的综合测试，以及PalmBench针对移动平台压缩模型的专项研究。这些工作共同构成了移动语言模型评估的完整体系，推动了移动设备专用AI技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集