MLGym和MLGym-Bench

Name: MLGym和MLGym-Bench
Creator: 加州大学圣塔巴巴拉分校, 伦敦大学学院, 威斯康星大学麦迪逊分校, 牛津大学, Meta公司的PyTorch核心库, Meta公司的FAIR, Meta公司的GenAI
Published: 2025-02-20 20:28:23
License: 暂无描述

arXiv2025-02-20 更新2025-02-22 收录

下载链接：

https://github.com/facebookresearch/MLGym

下载链接

链接失效反馈

官方服务：

资源简介：

MLGym是第一个为AI研究代理设计的Gym环境，集成了多样化和开放式的AI研究任务，旨在评估和开发LLM代理。MLGym-Bench是包含13个不同领域开放性研究任务的集合，如计算机视觉、自然语言处理、强化学习和博弈论等，用于评估LLM代理在真实世界多方面工作流程中的性能。该数据集由Meta公司的研究团队开发，并通过开源方式促进未来的AI研究。

MLGym is the first Gym environment designed for AI research agents, integrating diverse and open-ended AI research tasks, aiming to evaluate and develop LLM agents. MLGym-Bench is a collection of 13 open-ended research tasks across diverse domains, including computer vision, natural language processing, reinforcement learning, game theory and more, which is used to evaluate the performance of LLM agents in real-world multi-faceted workflows. This dataset was developed by the research team at Meta, and is made open-source to facilitate future AI research.

提供机构：

加州大学圣塔巴巴拉分校, 伦敦大学学院, 威斯康星大学麦迪逊分校, 牛津大学, Meta公司的PyTorch核心库, Meta公司的FAIR, Meta公司的GenAI

创建时间：

2025-02-20

搜集汇总

数据集介绍

构建方式

MLGym数据集的构建采用了模拟真实世界AI研究任务的策略，它通过创建一个统一框架，整合了计算机视觉、自然语言处理、强化学习和博弈论等多个领域的13个开放性研究任务。这些任务的设计旨在评估和训练大型语言模型（LLM）代理的能力，要求代理具备产生新想法、创建和加工数据、实现机器学习方法、训练模型、运行实验、分析结果并迭代改进等实际AI研究技能。MLGym框架允许研究人员轻松添加新任务、集成和评估模型或代理、生成大规模的合成数据，以及为在AI研究任务上训练代理开发新的学习算法。

使用方法

使用MLGym数据集的方法包括：首先，选择或创建一个代理，并配置其基本模型、历史处理器和成本管理。然后，将代理置于MLGym环境中，该环境负责初始化一个包含所有必要工具的shell环境，安装任务特定的Python依赖项，并将所有必要的数据和代码复制到一个独立的代理工作区中。接下来，代理可以根据任务描述和先前的执行反馈生成适当的shell命令，以完成研究目标，如生成想法、处理数据、实现新方法、训练和评估模型、分析结果以及推理下一步的实验。最后，代理可以通过提交其代码和结果来评估其性能。MLGym框架还提供了默认的代理框架和一系列工具，如文件编辑器、搜索工具、验证和提交命令，以及用于存储和检索实验结果的记忆模块，以支持代理在长期任务上的性能。

背景与挑战

背景概述

机器学习（ML）研究一直强调实证验证和系统性的模拟实验。尽管在各个领域开发AI代理方面取得了显著进展，但目前缺乏专门用于评估AI代理在各个领域进行开放式AI研究任务的框架和基准。Meta MLGym和MLGym-Bench应运而生，旨在解决这一空白。MLGym是一个统一框架，旨在整合各种开放式的AI研究任务，并为在LLM代理上进行开发和研究提供单一平台。MLGym-Bench则是一个包含13个开放式的AI研究任务的集合，涵盖了计算机视觉、自然语言处理、强化学习和博弈论等多个领域。

当前挑战

Meta MLGym和MLGym-Bench面临着多项挑战。首先，现有基准对于AI研究代理的评估大多不包括开放式研究任务，或仅涵盖狭窄的研究领域。其次，现有框架并非旨在研究不同的训练算法，如强化学习、课程学习和开放式学习。最后，当前框架不允许评估灵活的工件，例如代理研究的不同输出，如模型、算法或预测集。Meta MLGym和MLGym-Bench试图通过提供一个统一的框架和基准来解决这些挑战，以促进AI研究代理在各个领域的能力提升。

常用场景

经典使用场景

MLGym和MLGym-Bench是Meta公司推出的一个新框架和基准测试，用于评估和开发大型语言模型（LLM）代理在AI研究任务上的表现。该框架是第一个针对机器学习任务的Gym环境，使得研究人员能够对强化学习（RL）算法进行训练。MLGym-Bench包含了13个来自不同领域的开放性AI研究任务，如计算机视觉、自然语言处理、强化学习和博弈论。这些任务的解决需要真实的AI研究技能，如生成新想法和假设、创建和处理数据、实现ML方法、训练模型、运行实验、分析结果以及迭代这个过程以改进给定任务。MLGym框架使得添加新任务、集成和评估模型或代理、按比例生成合成数据以及开发新的学习算法以在AI研究任务上训练代理变得容易。

解决学术问题

MLGym和MLGym-Bench解决了当前缺乏评估AI研究代理在开放性AI研究任务上能力的综合框架和基准的问题。现有基准要么不包括开放性研究任务，要么只涵盖研究领域的狭窄范围。此外，现有框架不是为了研究不同的训练算法，如强化学习、课程学习和开放性学习而设计的。MLGym和MLGym-Bench通过提供灵活评估开放性研究任务性能的能力，扩大了当前LLM代理框架和基准的范围。例如，性能可以根据各种人工制品进行衡量，如模型权重、RL训练算法或代表博弈论策略的代码。通过这种方式，MLGym和MLGym-Bench为推动AI研究代理的AI研究能力提供了标准化的评估工具。

实际应用

MLGym和MLGym-Bench的实际应用场景包括但不限于：1）评估LLM代理在AI研究任务上的表现；2）开发新的LLM代理训练算法；3）生成用于AI研究的合成数据；4）促进AI研究代理的AI研究能力。通过这些应用，MLGym和MLGym-Bench有望推动AI研究的进步，加速科学发现，并在各个领域产生深远的影响。

数据集最近研究