ML Research Benchmark (MLRB)

Name: ML Research Benchmark (MLRB)
Creator: 算法研究小组
Published: 2024-10-30 05:38:42
License: 暂无描述

arXiv2024-10-30 更新2024-11-01 收录

下载链接：

https://github.com/AlgorithmicResearchGroup/ML-Research-Agent

下载链接

链接失效反馈

官方服务：

资源简介：

ML Research Benchmark (MLRB) 是由算法研究小组创建的一个用于评估AI代理在机器学习研究和发展中能力的基准数据集。该数据集包含7个从最近的机器学习会议竞赛中提取的任务，涵盖了模型训练效率、有限数据上的预训练、领域特定的微调以及模型压缩等研究活动。这些任务反映了当前机器学习研究的前沿挑战，旨在评估AI代理在复杂研究任务中的表现。通过使用前沿模型如Claude-3和GPT-4o进行评估，数据集提供了一个框架，用于比较和评估AI代理在实际AI研究挑战中的潜力。

The ML Research Benchmark (MLRB) is a benchmark dataset created by algorithm research groups to evaluate the capabilities of AI Agents in machine learning research and development. This dataset contains 7 tasks extracted from recent machine learning conference competitions, covering research activities such as model training efficiency, pre-training on limited data, domain-specific fine-tuning, and model compression. These tasks reflect the cutting-edge challenges in current machine learning research, and are designed to evaluate the performance of AI Agents on complex research tasks. By utilizing cutting-edge models including Claude-3 and GPT-4o for evaluation, this dataset provides a framework for comparing and assessing the potential of AI Agents in real-world AI research challenges.

提供机构：

算法研究小组

创建时间：

2024-10-30

原始信息汇总

ML Research Benchmark Baseline Agent

概述

ML Research Benchmark Baseline Agent 是一个用于各种AI和机器学习任务的基准系统。该代理提供了一个基础，用于比较和评估代理可以执行的机器学习研究和开发任务。

功能

支持多种AI/ML任务
兼容不同的LLM提供商（如OpenAI、Anthropic）
通过Docker实现易于部署和可重复性

可用任务

基准代理可以执行以下任务：

LLM Efficiency
Baby Language Model (LM)
Mini Pile
LLM Merging
Edge LLM Compression
Edge LLM Training
Math Reasoning (Autoformalization, Autoinformalization, Autotheorem Generation)

此外，还提供了几个任务的迷你版本，用于快速测试和开发。

可用工具

AI Research Benchmark Baseline Agent配备了多种工具，用于辅助不同的AI和机器学习任务：

Bash Tool：执行bash命令和脚本
Code Tool：管理代码操作，包括编写、插入、替换和删除代码
GitHub Tool：与GitHub仓库交互，获取README文件、列出文件和检索文件内容
Semantic Scholar Tool：搜索学术论文，检索论文详情、引用和下载论文
Python Tool：执行Python代码
Return Function Tool：处理任务完成
Scratchpad Tool：提供实验笔记和临时存储的便签板
Thought Tool：允许代理处理和记录想法
Long-Term Memory Tool：管理长期记忆存储和检索

先决条件

Python 3.x
Docker（用于容器化执行）

安装

克隆仓库： bash git clone https://github.com/AlgorithmicResearchGroup/ML-Research-Agent.git cd ML-Research-Agent
安装依赖： bash pip install -r requirements.txt

使用

不使用Docker运行

bash python3 run.py --task_name llm_efficiency --benchmark full_benchmark --provider openai

使用Docker运行

bash bash run.sh <image_name> <benchmark> <provider> <gpu_ids> <task_name> <time_limit> <huggingface_token> <env_file_path>

示例： bash bash run.sh algorithmicresearch/agent:latest full_benchmark openai 0 math_reasoning 24h <huggingface_token> /home/ubuntu/.env

贡献

欢迎通过提交拉取请求或开启问题来改进基准代理或添加新任务。

许可证

AGPL-3.0

联系

如有问题或支持需求，请联系Algorithmic Research Group，邮箱为matt@algorithmicresearchgroup.com。

搜集汇总

数据集介绍

构建方式

ML Research Benchmark (MLRB) 数据集的构建方式是通过从最近的机器学习会议竞赛中提取7个具有挑战性的任务来实现的。这些任务涵盖了AI研究人员通常进行的活动，包括模型训练效率、有限数据上的预训练、领域特定的微调以及模型压缩。数据集的构建过程包括从NeurIPS、ICML等会议的竞赛轨道中选择任务，确保这些任务既需要理论理解又需要实际实施技能，从而反映AI研究中的典型需求。

特点

MLRB 数据集的特点在于其任务的多样性和复杂性，这些任务旨在评估AI代理在高级机器学习研究中的能力。每个任务都设计为测试AI代理的不同方面，从高效的模型训练和压缩到高级推理和跨领域泛化。此外，数据集的任务结构允许无限改进，与AI代理和模型的不断发展的能力相一致，从而避免了快速饱和的风险。

使用方法

使用 MLRB 数据集时，研究人员可以通过提供任务指令、必要的数据和示例输出文件来提示AI代理完成任务。与传统的AI研究和发展基准不同，MLRB 不提供基线启动代码，而是提供足够的信息让代理自行完成任务。这种设计鼓励研究性和问题解决性思维。研究人员可以使用该数据集来评估和比较AI代理在解决实际AI研究挑战中的表现，从而推动AI领域的发展。

背景与挑战

背景概述

ML Research Benchmark (MLRB) 是由 Matthew Kenney Algorithmic Research Group 于2024年创建的一个创新性基准测试，旨在评估人工智能代理在机器学习研究和开发中的能力。该基准测试的核心研究问题是如何准确测量和基准化这些代理在处理研究级别问题和竞争级别挑战中的表现。MLRB 包含7个从近期机器学习会议竞赛中提取的任务，涵盖了AI研究人员通常进行的活动，如模型训练效率、有限数据上的预训练、领域特定微调以及模型压缩等。通过使用前沿模型（如Claude-3和GPT-4o）驱动的代理支架进行评估，MLRB 为评估AI代理在复杂、研究导向任务中的潜力提供了坚实的框架，对加速AI研究和开发具有重要影响。

当前挑战

MLRB 在构建和应用过程中面临多项挑战。首先，解决领域问题时，如何设计一个能够全面评估AI代理在研究级别任务中能力的基准测试是一个重大挑战。其次，在构建过程中，从复杂的机器学习会议竞赛中提取和标准化任务，确保这些任务能够真实反映AI研究的前沿问题，是一项技术性和实践性都很强的工作。此外，评估AI代理在处理这些任务时的表现，特别是在资源和时间受限的情况下，如何确保评估的准确性和公平性，也是一大挑战。最后，MLRB 还需要不断更新和扩展，以适应AI技术的快速发展和变化，保持其作为评估工具的有效性和前沿性。

常用场景

经典使用场景

ML Research Benchmark (MLRB) 数据集的经典使用场景主要集中在评估和比较人工智能代理在机器学习研究和发展中的能力。该数据集包含七个来自近期机器学习会议的竞赛级别任务，涵盖了模型训练效率、有限数据预训练、领域特定微调以及模型压缩等典型AI研究人员活动。通过使用前沿模型（如Claude-3和GPT-4o）驱动的代理框架，MLRB能够有效评估AI代理在复杂研究任务中的表现，特别是在规划和开发机器学习模型方面的能力。

实际应用

在实际应用中，MLRB 数据集可用于评估和优化AI代理在自动化机器学习研究中的表现。例如，研究机构和企业可以使用MLRB来测试其AI代理在处理复杂研究任务时的效率和准确性，从而改进和优化这些代理的设计。此外，MLRB还可以用于教育和培训，帮助学生和研究人员理解和掌握AI研究中的关键技术和方法。通过提供一个标准化的评估框架，MLRB促进了AI技术的实际应用和创新。

衍生相关工作

MLRB 数据集的推出催生了一系列相关研究工作，特别是在AI代理和机器学习模型的评估与优化领域。例如，基于MLRB的研究可能包括开发新的模型压缩技术、改进数据预处理方法以及优化模型训练流程。此外，MLRB还可能激发对AI代理在不同领域（如自然语言处理、计算机视觉和强化学习）中应用的深入研究。通过提供一个全面且具有挑战性的基准，MLRB为学术界和工业界提供了一个共同的平台，促进了跨领域的合作与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集