MLR-Bench

github2025-05-30 更新2025-06-01 收录

下载链接：

https://github.com/chchenhui/mlrbench

下载链接

链接失效反馈

官方服务：

资源简介：

MLR-Bench是一个用于评估AI代理在开放式机器学习研究中的综合基准。它包括201个来自NeurIPS、ICLR和ICML研讨会的研究任务，涵盖了多样化的机器学习主题。这些任务可以分为9个核心ML主题：LLMs和视觉语言模型（VLMs）、AI for Science、ML理论、可信AI、计算机视觉、ML系统、多模态、强化学习（RL）和其他新兴主题。

MLR-Bench is a comprehensive benchmark for evaluating AI Agents in open-ended machine learning research. It comprises 201 research tasks sourced from the workshops of NeurIPS, ICLR, and ICML, covering a diverse range of machine learning topics. These tasks are categorized into 9 core ML themes: LLMs and vision-language models (VLMs), AI for Science, ML theory, trustworthy AI, computer vision, ML systems, multimodality, reinforcement learning (RL), and other emerging topics.

创建时间：

2025-05-14

原始信息汇总

MLR-Bench 数据集概述

数据集简介

名称: MLR-Bench
用途: 评估AI代理在开放式机器学习研究任务中的表现
核心组件:
1. 基准数据集（201个研究任务）
2. MLR-Agent（模块化研究代理）
3. MLR-Judge（自动评估框架）

基准数据集详情

数据来源: NeurIPS、ICLR和ICML研讨会
任务数量: 201个
时间分布:

年份任务数量

2023 73

2024 91

2025 37
研究主题分类:
- LLMs和Vision Language Models (VLMs)
- AI for Science
- ML Theory
- Trustworthy AI
- Computer Vision
- ML Systems
- Multimodality
- Reinforcement Learning (RL)
- 其他新兴主题

数据获取

存储位置: HuggingFace
访问地址: https://huggingface.co/datasets/chchenhui/mlrbench-tasks

相关资源

论文: arXiv:2505.19955
许可证: MIT

搜集汇总

数据集介绍

构建方式

MLR-Bench数据集的构建基于对NeurIPS、ICLR和ICML三大顶级机器学习会议近三年研讨会课题的系统性收集，共精选201项开放型研究任务。研究团队采用严格的多维度分类体系，将任务划分为9个核心机器学习领域，包括大语言模型与视觉语言模型、可信AI、强化学习等前沿方向。为确保数据代表性，构建过程综合考虑了时间跨度和主题覆盖的平衡性，并通过HuggingFace平台实现标准化数据托管。

特点

该数据集最显著的特点是高度模拟真实机器学习研究环境，提供从创意构思到论文撰写的全流程研究任务。其任务来源均选自顶级学术会议，具有权威性和时效性；多维度分类体系则便于研究者进行针对性评估。数据集特别设计了模块化评估框架，既支持端到端的整体研究流程评估，也可分阶段验证AI代理在想法生成、方案设计等特定环节的表现。这种双重评估机制为衡量AI科研能力提供了立体化的观察视角。

使用方法

使用者可通过HuggingFace平台直接获取基准数据集，按照提供的API密钥配置指南接入前沿大模型服务。实验环境采用conda进行依赖管理，确保复现性。评估体系提供两种运行模式：端到端模式通过单一指令自动完成全流程研究任务，适合整体性能评估；分步模式则支持对创意生成、文献综述等特定研究环节的独立测试。结果输出采用标准化Markdown格式，并配备自动化评审模块对研究质量进行多维度量化评估。

背景与挑战

背景概述

MLR-Bench是由研究人员Hui Chen等人于2025年提出的一个综合性基准测试，旨在评估AI代理在开放式机器学习研究任务中的表现。该数据集收录了来自NeurIPS、ICLR和ICML等顶级会议工作坊的201项研究任务，覆盖了从大型语言模型与视觉语言模型到机器学习理论、可信AI、计算机视觉等多个核心领域。作为首个专注于评估AI代理完整研究流程的基准，MLR-Bench不仅提供了模块化的MLR-Agent框架支持从创意生成到论文撰写的全流程研究，还创新性地开发了MLR-Judge自动评估系统，通过结合大语言模型与精细化评审标准来量化研究质量。这一开创性工作为衡量AI系统的科研创新能力建立了标准化范式，对推动人工智能辅助科研的发展具有重要意义。

当前挑战

MLR-Bench面临的挑战主要体现在两个维度：在领域问题层面，开放式机器学习研究具有高度复杂性和不确定性，如何准确评估AI代理在创意新颖性、方法严谨性和成果实用性等多维度的表现仍存在显著困难；在构建过程中，研究团队需要解决多源异构数据的标准化整合问题，包括从不同会议工作坊提取研究任务并建立统一的分类体系。此外，设计既能反映研究质量又具备可操作性的自动化评审标准也面临巨大挑战，特别是在平衡量化指标与专家判断之间的张力方面。这些挑战使得构建全面可靠的AI科研能力评估体系成为一项极具前沿性的探索。

常用场景

经典使用场景

在人工智能研究领域，MLR-Bench数据集被广泛用于评估AI代理在开放式机器学习研究任务中的表现。该数据集涵盖了从NeurIPS、ICLR和ICML等顶级会议工作坊中精选的201项研究任务，涉及大语言模型、计算机视觉、强化学习等多个前沿方向。研究者通过该数据集能够系统地测试AI代理在科研全流程中的能力，包括创意生成、实验设计和论文撰写等关键环节。

衍生相关工作

基于MLR-Bench的基准测试，研究者已衍生出多项创新工作。其中包括改进型科研代理架构MLR-Agent 2.0，其模块化设计支持自定义科研流程；以及跨领域评估框架Sci-Bench，将测试范围扩展至材料科学等学科。这些工作共同推动了AI科研代理从单一任务执行向复杂问题解决的范式转变。

数据集最近研究

年份	任务数量
2023	73
2024	91
2025	37