MLE-Dojo

Name: MLE-Dojo
Creator: 乔治亚理工学院、斯坦福大学
Published: 2025-05-13 01:35:43
License: 暂无描述

arXiv2025-05-13 更新2025-05-14 收录

下载链接：

https://github.com/MLE-Dojo/MLE-Dojo

下载链接

链接失效反馈

官方服务：

资源简介：

MLE-Dojo是一个基于Kaggle竞赛构建的互动式环境，旨在为机器学习工程中的大型语言模型(LLM)代理提供系统化的强化学习、评估和改进工具。该数据集包含200多个真实世界的Kaggle挑战，涵盖了数据处理、架构搜索、超参数调整和代码调试等多种开放式的MLE任务。MLE-Dojo提供了一个完全可执行的互动环境，支持监督微调和强化学习，以便进行迭代实验、实际数据采样和实时结果验证。通过大规模评估八个前沿LLM，MLE-Dojo揭示了当前模型在生成长期解决方案和高效解决复杂错误方面的局限性。MLE-Dojo的灵活和可扩展架构无缝地整合了多种数据源、工具和评估协议，促进了基于模型的代理调整，并推动了互操作性、可扩展性和可重复性。数据集旨在解决机器学习工程中的挑战，并通过开源框架和基准来推动社区驱动的创新，以开发下一代MLE代理。

MLE-Dojo is an interactive environment built on Kaggle competitions, designed to provide systematic reinforcement learning, evaluation, and improvement tools for Large Language Model (LLM) agents in machine learning engineering (MLE). This dataset contains over 200 real-world Kaggle challenges, covering a variety of open-ended MLE tasks such as data processing, architecture search, hyperparameter tuning, and code debugging. MLE-Dojo offers a fully executable interactive environment that supports supervised fine-tuning and reinforcement learning, enabling iterative experimentation, real-world data sampling, and real-time result validation. Through large-scale evaluation of eight state-of-the-art LLMs, MLE-Dojo reveals the limitations of current models in generating long-term solutions and efficiently resolving complex errors. Its flexible and scalable architecture seamlessly integrates diverse data sources, tools, and evaluation protocols, facilitating model-based agent tuning and advancing interoperability, scalability, and reproducibility. This dataset aims to address challenges in machine learning engineering and drive community-driven innovation via open-source frameworks and benchmarks for developing next-generation MLE agents.

提供机构：

乔治亚理工学院、斯坦福大学

创建时间：

2025-05-13

原始信息汇总

MLE-Dojo数据集概述

数据集简介

名称：MLE-Dojo
类型：Gym风格框架，用于强化学习、评估和改进自主大型语言模型（LLM）代理在迭代机器学习工程（MLE）工作流程中的表现
基础数据：基于200+个真实世界的Kaggle挑战
特点：
- 涵盖多样化的开放式MLE任务
- 反映真实的机器学习工程场景（如数据处理、架构搜索、超参数调整、代码调试等）
- 提供完全可执行的环境和灵活接口

数据集内容

任务来源：
- 68个来自MLE-Bench的竞赛（排除7个不可用、过大或与特定包紧密耦合的任务）
- 74个来自DSBench的竞赛
- 75个从Kaggle官网额外爬取和准备的竞赛
任务总数：200+个独特的任务

数据准备

步骤：
1. 安装Kaggle包并设置API令牌
2. 手动接受每个竞赛的条款和条件
3. 使用提供的脚本准备数据（prepare/mle.py或prepare/dsbench.py）
注意事项：
- 数据准备过程耗时且占用空间
- 需要为每个竞赛单独接受条款和条件

使用方式

环境设置：
- 支持Docker和Conda两种方式
- 需要配置LLM API密钥（如OpenAI、Gemini等）
快速开始：
- 提供Python示例代码展示如何与MLE-Dojo交互
- 支持注册竞赛、初始化环境和执行代码等操作
实验运行：
- 支持使用Docker和不使用Docker两种方式
- 提供多种配置选项（如GPU设置、任务运行时间等）

支持的功能

代理脚手架：
1. 原始支持动作空间的MLE代理
2. AIDE（AI-Driven Exploration）代理
3. 基于OpenAI Agents包的MLE代理实现
模型支持：
- 支持主流LLM（如GPT、Deepseek、Gemini、Grok、Claude等）
- 支持本地模型（如LLaMA、Qwen等）

许可与引用

许可证：
- 项目代码采用MIT许可证
- 不同竞赛可能受不同许可证管辖
引用方式：
- 提供BibTeX格式的引用条目

使用条款

用途限制：仅限教育和学术研究
数据完整性：不保证准确性、完整性或及时性
知识产权：必须遵守原始创作者的权利
免责声明：数据集按"原样"提供，不承担任何责任

搜集汇总

数据集介绍

构建方式

MLE-Dojo数据集构建于200多个真实世界的Kaggle挑战赛之上，涵盖表格数据分析、计算机视觉、自然语言处理和时间序列预测等多个关键机器学习领域。通过精心筛选和标准化处理，这些任务被转化为可执行的工程挑战，其中150个任务构成初始训练集，支持监督微调和强化学习的交互式训练轨迹采样。数据集采用Docker容器化技术确保任务执行的隔离性和可复现性，同时提供预装依赖、标准化评估脚本和实时结果验证功能，以简化迭代实验和调试流程。

特点

MLE-Dojo的突出特点在于其动态交互式评估环境，突破了传统静态数据集的局限。该框架提供模块化接口设计，将错误类型、交互逻辑、反馈机制和评估指标等核心组件解耦，支持灵活的功能扩展。其任务空间覆盖15种不同的机器学习任务类型，并采用HumanRank评分机制将模型表现与人类参赛者排名相关联，实现跨任务的标准化性能评估。完全可执行的环境支持实时代码验证和提交，配合持续更新的公开排行榜，为自治MLE智能体的开发提供了透明度高、可复现性强的研究平台。

使用方法

使用MLE-Dojo时，研究者可通过标准化的Python API与环境交互，核心流程包括环境初始化、智能体创建和步骤式循环执行。智能体可调用request_info获取任务描述，通过validate_code进行语法检查，使用execute_code完成完整代码执行与评估，并借助get_history访问交互记录。框架支持最大15步的有限步数交互，配备12小时运行时限制和32GB GPU内存约束，模拟真实Kaggle竞赛条件。用户既可基于原生MLE智能体进行基准测试，也能集成自定义模块或第三方智能体框架（如AIDE），通过统一注册机制扩展动作空间和评估协议。

背景与挑战

背景概述

MLE-Dojo是由佐治亚理工学院和斯坦福大学的研究团队于2025年推出的一个交互式机器学习工程（MLE）基准测试框架。该数据集构建于200多个真实Kaggle竞赛任务之上，旨在通过强化学习环境评估和提升大型语言模型（LLM）在完整MLE工作流中的自主能力。其核心创新在于突破了传统静态数据集的局限，通过支持迭代实验、调试和方案优化的闭环反馈机制，首次实现了对模型在数据预处理、架构搜索、超参数调优等复杂工程场景下的系统性评估。作为首个Gym风格的MLE专用测试平台，MLE-Dojo通过模块化架构整合了监督微调与强化学习范式，为开发具有长程推理和复杂错误修复能力的自主智能体建立了新的研究范式。

当前挑战

MLE-Dojo面临的挑战主要体现在两个维度：领域问题层面，现有LLM在生成长周期解决方案和高效修复复杂错误方面仍存在显著缺陷，其自主完成端到端机器学习工作流的能力仅达到人类顶级选手61.95%的水平；数据构建层面，真实Kaggle任务的异构性导致数据标准化难度剧增，需设计动态Docker容器实现任务隔离，同时平衡计算资源分配与沙箱安全性。具体挑战包括：1) 多模态任务（如计算机视觉与时间序列预测）的评估指标不可通约性问题；2) 交互式环境对代码执行实时验证的延迟容忍度设计；3) 从750+原始竞赛中筛选具有代表性和计算可行性的200个任务所涉及的领域覆盖度与难度平衡。

常用场景

经典使用场景

MLE-Dojo作为一个交互式Gym风格框架，专为机器学习和数据科学领域设计，其经典使用场景在于系统性地训练、评估和改进基于大型语言模型（LLM）的自主代理在机器学习工程（MLE）工作流程中的表现。通过模拟真实Kaggle竞赛环境，该数据集支持代理在数据预处理、模型架构搜索、超参数调优和代码调试等多样化任务中进行迭代实验。其动态反馈机制和可执行环境使得代理能够通过监督微调和强化学习进行训练，特别适合研究长期决策和复杂错误解决的场景。

衍生相关工作

该数据集催生了多个重要研究方向：1）基于强化学习的代理架构优化，如采用蒙特卡洛树搜索的SELA框架；2）端到端工作流自动化工具链开发，如DS-Agent的案例推理系统；3）多代理协作系统的基准测试。其开源生态还促进了如AutoKaggle等竞赛平台的工具集成，以及ML-Gym等通用训练环境的改进。这些衍生工作共同推动了从单任务解决到全流程自主MLE的范式转变。

数据集最近研究