Mobile-MMLU

github2024-12-26 更新2024-12-27 收录

下载链接：

https://github.com/VILA-Lab/Mobile-MMLU

下载链接

链接失效反馈

官方服务：

资源简介：

Mobile-MMLU是一个全面的基准测试，旨在评估跨80个不同领域（包括教育、医疗保健和技术）的移动兼容大型语言模型（LLMs）。我们的基准测试重新定义了移动智能评估，专注于现实世界的适用性和在移动环境中重要的性能指标。

Mobile-MMLU is a comprehensive benchmark designed to evaluate mobile-compatible large language models (LLMs) across 80 distinct domains including education, healthcare, and technology. This benchmark redefines mobile intelligence evaluation, focusing on real-world applicability and performance metrics that are critical in mobile environments.

创建时间：

2024-12-25

原始信息汇总

Mobile-MMLU: 移动智能语言理解基准

概述

Mobile-MMLU 是一个全面的基准测试，旨在评估跨80个不同领域（包括教育、医疗保健和技术）的移动兼容大型语言模型（LLMs）。该基准重新定义了移动智能评估，专注于现实世界的适用性和在移动环境中重要的性能指标。

关键特性

全面覆盖：涵盖80个不同领域，包含精心策划的问题。
移动优化：专门设计用于评估移动兼容的LLMs。
16,186个问题：包含基于场景的广泛数据集。
严格评估：系统评估性能、效率和准确性。
现实世界应用：专注于日常场景中的实际用例。

排行榜

访问实时排行榜查看各种移动LLMs在不同类别和指标中的最新性能排名。

入门指南

后端支持

目前支持以下后端进行模型推理：

hf: HF Transformers
gptqmodel: GPTQModel 用于gptq量化模型

响应生成

安装所需包： bash pip install torch transformers datasets pandas tqdm
使用您的模型生成响应： bash python generate_answers.py --model_name your_model_name --batch_size 32 --device cuda

支持的参数：

--model_name: 模型的名称或路径（必需）
--batch_size: 处理的批量大小（默认：32）
--device: 运行模型的设备（默认：auto = 如果可用则使用cuda，否则使用cpu）
--backend: 加载模型的后端（默认：hf）。使用gptqmodel用于gptq量化模型。

响应格式

脚本将生成一个CSV文件，格式如下： csv question_id,predicted_answer q1,A q2,B q3,C ...

每行包含：

question_id: 每个问题的唯一标识符
predicted_answer: 模型的预测（A、B、C或D）

提交

生成包含模型预测的CSV文件后，通过我们的评估门户提交：链接

搜集汇总

数据集介绍

构建方式

Mobile-MMLU数据集通过精心设计的流程构建，涵盖了教育、医疗、技术等80个不同领域的知识。数据集的构建过程中，研究人员从实际应用场景出发，设计了16,186个问题，确保每个问题都能反映移动环境下的真实需求。问题的筛选和优化过程严格遵循科学标准，以确保数据集的高质量和广泛适用性。

特点

Mobile-MMLU数据集以其全面性和针对性著称，覆盖了80个不同领域的知识，特别针对移动兼容的大型语言模型进行了优化。数据集包含16,186个问题，这些问题不仅数量庞大，而且类型多样，包括基于场景的复杂问题。此外，数据集的设计注重实际应用，能够有效评估模型在移动环境下的性能、效率和准确性。

使用方法

使用Mobile-MMLU数据集时，用户首先需要安装必要的Python包，如torch、transformers等。随后，通过提供的脚本generate_answers.py生成模型的预测结果。脚本支持多种参数配置，如模型名称、批量大小和设备选择。生成的预测结果以CSV文件格式保存，用户可以通过提交该文件至评估门户进行模型性能的评估和比较。

背景与挑战

背景概述

Mobile-MMLU是由MBZUAI-LLM团队开发的一个综合性基准测试数据集，旨在评估移动设备兼容的大型语言模型（LLMs）在80多个不同领域的表现，涵盖教育、医疗和技术等多个领域。该数据集于近期发布，专注于移动环境中的实际应用和性能指标，重新定义了移动智能评估的标准。Mobile-MMLU的创建标志着移动智能领域的一个重要里程碑，为研究人员和开发者提供了一个系统化的工具，以衡量和优化移动设备上的语言模型性能。

当前挑战

Mobile-MMLU面临的挑战主要体现在两个方面。首先，该数据集旨在解决移动设备上语言模型的多领域理解和应用问题，这要求模型在资源受限的环境中保持高效和准确，这对模型的压缩和优化提出了极高的要求。其次，在构建过程中，研究人员需要精心设计涵盖80多个领域的16,186个问题，确保问题的多样性和代表性，同时还要考虑移动设备特有的使用场景和限制，这对数据集的构建和标注工作提出了巨大的挑战。

常用场景

经典使用场景

Mobile-MMLU数据集在移动智能语言理解领域具有广泛的应用，特别是在评估移动兼容的大型语言模型（LLMs）方面。该数据集通过涵盖教育、医疗、技术等80个不同领域的16,186个问题，为研究人员提供了一个全面的基准测试平台。其经典使用场景包括模型性能评估、效率测试以及在实际移动环境中的适用性分析。

实际应用

在实际应用中，Mobile-MMLU数据集被广泛用于开发和优化移动智能助手、教育应用和医疗诊断工具。通过模拟真实场景中的语言理解任务，该数据集帮助开发者提升模型在实际使用中的表现，确保其在移动设备上的高效运行。这对于提升用户体验和推动智能技术的普及具有重要意义。

衍生相关工作

基于Mobile-MMLU数据集，许多经典研究工作得以展开。例如，研究人员利用该数据集开发了多种移动优化的大型语言模型，并在教育、医疗等领域取得了显著成果。此外，该数据集还催生了一系列关于模型压缩、量化技术的研究，进一步推动了移动智能技术的发展和应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集