five

Mobile-MMLU

收藏
github2024-12-26 更新2024-12-27 收录
下载链接:
https://github.com/VILA-Lab/Mobile-MMLU
下载链接
链接失效反馈
官方服务:
资源简介:
Mobile-MMLU是一个全面的基准测试,旨在评估跨80个不同领域(包括教育、医疗保健和技术)的移动兼容大型语言模型(LLMs)。我们的基准测试重新定义了移动智能评估,专注于现实世界的适用性和在移动环境中重要的性能指标。

Mobile-MMLU is a comprehensive benchmark designed to evaluate mobile-compatible large language models (LLMs) across 80 distinct domains including education, healthcare, and technology. This benchmark redefines mobile intelligence evaluation, focusing on real-world applicability and performance metrics that are critical in mobile environments.
创建时间:
2024-12-25
原始信息汇总

Mobile-MMLU: 移动智能语言理解基准

概述

Mobile-MMLU 是一个全面的基准测试,旨在评估跨80个不同领域(包括教育、医疗保健和技术)的移动兼容大型语言模型(LLMs)。该基准重新定义了移动智能评估,专注于现实世界的适用性和在移动环境中重要的性能指标。

关键特性

  • 全面覆盖:涵盖80个不同领域,包含精心策划的问题。
  • 移动优化:专门设计用于评估移动兼容的LLMs。
  • 16,186个问题:包含基于场景的广泛数据集。
  • 严格评估:系统评估性能、效率和准确性。
  • 现实世界应用:专注于日常场景中的实际用例。

排行榜

访问实时排行榜查看各种移动LLMs在不同类别和指标中的最新性能排名。

入门指南

后端支持

目前支持以下后端进行模型推理:

响应生成

  1. 安装所需包: bash pip install torch transformers datasets pandas tqdm

  2. 使用您的模型生成响应: bash python generate_answers.py --model_name your_model_name --batch_size 32 --device cuda

支持的参数:

  • --model_name: 模型的名称或路径(必需)
  • --batch_size: 处理的批量大小(默认:32)
  • --device: 运行模型的设备(默认:auto = 如果可用则使用cuda,否则使用cpu)
  • --backend: 加载模型的后端(默认:hf)。使用gptqmodel用于gptq量化模型。

响应格式

脚本将生成一个CSV文件,格式如下: csv question_id,predicted_answer q1,A q2,B q3,C ...

每行包含:

  • question_id: 每个问题的唯一标识符
  • predicted_answer: 模型的预测(A、B、C或D)

提交

  1. 生成包含模型预测的CSV文件后,通过我们的评估门户提交:链接
搜集汇总
数据集介绍
main_image_url
构建方式
Mobile-MMLU数据集通过精心设计的流程构建,涵盖了教育、医疗、技术等80个不同领域的知识。数据集的构建过程中,研究人员从实际应用场景出发,设计了16,186个问题,确保每个问题都能反映移动环境下的真实需求。问题的筛选和优化过程严格遵循科学标准,以确保数据集的高质量和广泛适用性。
特点
Mobile-MMLU数据集以其全面性和针对性著称,覆盖了80个不同领域的知识,特别针对移动兼容的大型语言模型进行了优化。数据集包含16,186个问题,这些问题不仅数量庞大,而且类型多样,包括基于场景的复杂问题。此外,数据集的设计注重实际应用,能够有效评估模型在移动环境下的性能、效率和准确性。
使用方法
使用Mobile-MMLU数据集时,用户首先需要安装必要的Python包,如torch、transformers等。随后,通过提供的脚本generate_answers.py生成模型的预测结果。脚本支持多种参数配置,如模型名称、批量大小和设备选择。生成的预测结果以CSV文件格式保存,用户可以通过提交该文件至评估门户进行模型性能的评估和比较。
背景与挑战
背景概述
Mobile-MMLU是由MBZUAI-LLM团队开发的一个综合性基准测试数据集,旨在评估移动设备兼容的大型语言模型(LLMs)在80多个不同领域的表现,涵盖教育、医疗和技术等多个领域。该数据集于近期发布,专注于移动环境中的实际应用和性能指标,重新定义了移动智能评估的标准。Mobile-MMLU的创建标志着移动智能领域的一个重要里程碑,为研究人员和开发者提供了一个系统化的工具,以衡量和优化移动设备上的语言模型性能。
当前挑战
Mobile-MMLU面临的挑战主要体现在两个方面。首先,该数据集旨在解决移动设备上语言模型的多领域理解和应用问题,这要求模型在资源受限的环境中保持高效和准确,这对模型的压缩和优化提出了极高的要求。其次,在构建过程中,研究人员需要精心设计涵盖80多个领域的16,186个问题,确保问题的多样性和代表性,同时还要考虑移动设备特有的使用场景和限制,这对数据集的构建和标注工作提出了巨大的挑战。
常用场景
经典使用场景
Mobile-MMLU数据集在移动智能语言理解领域具有广泛的应用,特别是在评估移动兼容的大型语言模型(LLMs)方面。该数据集通过涵盖教育、医疗、技术等80个不同领域的16,186个问题,为研究人员提供了一个全面的基准测试平台。其经典使用场景包括模型性能评估、效率测试以及在实际移动环境中的适用性分析。
实际应用
在实际应用中,Mobile-MMLU数据集被广泛用于开发和优化移动智能助手、教育应用和医疗诊断工具。通过模拟真实场景中的语言理解任务,该数据集帮助开发者提升模型在实际使用中的表现,确保其在移动设备上的高效运行。这对于提升用户体验和推动智能技术的普及具有重要意义。
衍生相关工作
基于Mobile-MMLU数据集,许多经典研究工作得以展开。例如,研究人员利用该数据集开发了多种移动优化的大型语言模型,并在教育、医疗等领域取得了显著成果。此外,该数据集还催生了一系列关于模型压缩、量化技术的研究,进一步推动了移动智能技术的发展和应用。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作