MLS-Bench-Tasks

Hugging Face2026-05-10 更新2026-05-11 收录

下载链接：

https://huggingface.co/datasets/Bohan22/MLS-Bench-Tasks

下载链接

链接失效反馈

官方服务：

资源简介：

MLS-Bench Tasks数据集是一个包含140个可执行机器学习科学基准任务定义的数据集。每个任务以JSONL格式存储在`data/tasks.jsonl`文件中，完整描述包括任务描述、基准领域、外部依赖包、评估设置、可编辑文件范围、基线定义、基线编辑实现、解析器、评分规范和原始任务配置。数据集还提供每个任务的原始文件，位于`tasks/<task_id>/`目录下。该数据集是基准元数据和可执行评估规范的集合，不包含原始训练样本。许多任务依赖上游公共数据集、模型检查点或代码库，但这些资源未在数据集中重新分发。数据集适用于多种机器学习任务，如文本生成、强化学习、表格分类和图像分类。

The MLS-Bench Tasks dataset contains definitions for 140 executable machine learning scientific benchmark tasks. Each task is fully described in a single line of JSONL format in the `data/tasks.jsonl` file, including task description, benchmark domain, external dependencies, evaluation setup, editable file scope, baseline definition, baseline edit implementation, parser, scoring specification, and original task configuration. The dataset also provides original files for each task in the `tasks/<task_id>/` directory. It is a collection of benchmark metadata and executable evaluation specifications, without original training samples. Many tasks rely on upstream public datasets, model checkpoints, or codebases, which are not redistributed here. The dataset is suitable for tasks such as text generation, reinforcement learning, tabular classification, and image classification.

创建时间：

2026-05-05

原始信息汇总

数据集概述：MLS-Bench Tasks

数据集地址：https://huggingface.co/datasets/Bohan22/MLS-Bench-Tasks

1. 基本信息

许可证：MIT
语言：英语（en）
任务类别：
- 文本生成（text-generation）
- 强化学习（reinforcement-learning）
- 表格分类（tabular-classification）
- 图像分类（image-classification）
数据集规模：100 < 样本数 < 1000

2. 数据集内容

组成：包含140个可执行的机器学习科学基准任务（MLS-Bench）的定义部分。
数据格式：data/tasks.jsonl 文件中每行是一个完整的任务规范（JSONL格式）。
每行包含字段：
- task_id, name, summary, description：任务身份和自然语言研究问题。
- benchmark_area, benchmark_area_abbr：标准MLS-Bench研究领域分组。
- packages：外部包名称、源仓库、固定提交版本及本地包标志。
- evaluation_settings：每个测试命令的条目，包括标签、命令、脚本内容、包、计算/时间预算、执行组、隐藏设置标志和代理跳过标志。
- editable_files：代理可见/可编辑的文件和行范围。
- baselines：基线名称、命令（如有）、编辑操作路径及实际基线编辑实现。
- score_spec, parser, budget_check：任务特定评分、指标解析及容量检查（如有）。
- raw_config_json, file_manifest：完整原始配置和每个任务的文件清单。

3. 文件布局

data/tasks.jsonl：结构化任务表，用于Hugging Face数据集查看器和Croissant生成。
tasks/<task_id>/：原始任务定义文件（不含排行榜和相关工作文件）。
metadata/packages.yaml：外部包注册表，包含源仓库和固定提交版本。
metadata/site_task_metadata.json：显示名称和任务摘要。
metadata/paper_areas.json：规范化的140任务基准领域列表。
metadata/tasks_metadata.json：论文/附录任务元数据。
metadata/mls_bench_lite.json：Lite子集定义。

4. 范围与限制

数据集仅包含任务定义和可执行评估规范，不包含原始训练样本。
许多任务依赖上游公开数据集、模型检查点或代码库，这些资源未重新分发，但通过包注册表、任务配置和脚本记录了来源和准备步骤。
完整可执行代码和社区排行榜维护在：https://mls-bench.com。

搜集汇总

数据集介绍

构建方式

MLS-Bench-Tasks数据集由140个可执行的机器学习科学基准任务组成，每个任务在`data/tasks.jsonl`文件中以JSONL格式呈现为完整的任务规范。构建过程涵盖了任务描述、基准领域、固定外部包、评估设置、可编辑文件范围、基线定义与编辑实现、解析器、评分规范以及原始任务配置等核心要素。此外，该数据集还保留了原始任务文件于`tasks/<task_id>/`目录下，供直接审查，但刻意排除了运行时工件如容器镜像、克隆的外部包、预处理的上游数据集等，以确保聚焦于任务定义本身。

使用方法

使用该数据集时，用户可通过Hugging Face数据集查看器或Croissant生成工具直接加载`data/tasks.jsonl`中的结构化任务表。每个任务均可独立调用，用户需根据`packages`字段中指定的源仓库和提交版本准备外部依赖，并依据`evaluation_settings`中的命令与预算约束执行评估。完整的可执行代码与社区排行榜维护在https://mls-bench.com，建议用户结合该平台进行任务运行与结果提交。此数据集并非原始训练样本的独立语料库，而是作为基准元数据和评估规范，引导用户复现或扩展上游公开数据集、模型检查点或代码库中的研究。

背景与挑战

背景概述

在人工智能的快速发展中，自动化机器学习（AutoML）与智能体系统因其能够自主完成复杂科研任务而备受关注。然而，现有基准测试多聚焦于固定任务类型，缺乏对跨领域、可执行机器学习任务的系统性评估。由MLS-Bench团队于近期构建的MLS-Bench-Tasks数据集，汇集了140个活跃且可执行的机器学习科学基准任务。该数据集由特定研究机构主导开发，旨在解决机器学习智能体在多样化科研场景下的泛化能力评估问题。通过提供结构化任务定义、外部依赖管理及评估脚本，该数据集为衡量智能体在真实科研流程中的表现奠定了重要基础，对推动具备自主科研能力的通用AI系统研究具有里程碑意义。

当前挑战

当前机器学习智能体基准测试面临的核心挑战在于任务多样性与执行可靠性的平衡。MLS-Bench-Tasks数据集所解决的领域问题正是如何构建跨表格分类、图像分类、文本生成与强化学习等多领域的标准化评估框架，以检验智能体从环境理解到代码执行的端到端能力。在构建过程中，团队需克服诸多技术难题：其一，需为140个独立任务维护一致的包依赖环境与版本锁定机制，确保可复现性；其二，需设计可编辑文件作用域与基线编辑实现，在赋予智能体自由度的同时限定操作边界；其三，需将时间与计算预算量化到评估设置中，模拟真实科研中的资源约束。此外，任务配置的解析规范、隐藏标志的评分机制及Lite子集的定义，均增加了工程实现的复杂度。

常用场景

经典使用场景

MLS-Bench-Tasks数据集作为机器学习科学领域的一项系统性基准测试资源，其经典使用场景在于评估和比较不同智能体或算法在自动化机器学习研究任务中的执行能力。该数据集涵盖了140项可执行的基准任务，横跨文本生成、强化学习、表格分类与图像分类等多个核心领域，为研究者提供了统一的任务定义和可复现的评估框架。每项任务都包含了详尽的描述、评测设置、基线定义以及可编辑文件范围，使得研究者能够精准地衡量算法在独立科研场景下的表现，从而推动机器学习自动化研究向更高层次发展。

解决学术问题

该数据集有效解决了学术研究中长期存在的基准任务定义不统一、评估标准模糊以及结果难以复现等关键问题。通过提供标准化的任务规范、固定的外部依赖包和精确的评分机制，MLS-Bench-Tasks为学术界构建了一个公平、透明且可横向比较的评估生态系统。它使得不同研究团队能够基于相同的任务配置和评测协议来验证各自算法的有效性，大幅降低了因环境差异或任务解释歧义而产生的噪音。这一体系的建立不仅提升了研究的严谨性和可信度，更促进了自动化机器学习领域的理论突破与方法创新。

实际应用

在实际应用层面，MLS-Bench-Tasks数据集为自动化机器学习系统的开发与部署提供了坚实的支撑。它可被用于训练和评估能够自主完成从数据预处理、模型选择到超参数调优全流程的智能体，从而降低对人工专家经验的依赖。该数据集特别适用于研发面向科研自动化的AI助手，帮助科学家加速探索未知问题的建模策略。同时，其定义的评测指标和预算约束机制也直接服务于工业界中对算法效率和资源上限有严格要求的场景，例如在有限算力下自动设计高性能模型。

数据集最近研究