PredictBeforeExecute

Name: PredictBeforeExecute
Creator: ZJUNLP
Published: 2026-03-04 22:45:03
License: 暂无描述

Hugging Face2026-03-04 更新2026-03-05 收录

下载链接：

https://huggingface.co/datasets/zjunlp/PredictBeforeExecute

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是研究“数据为中心的解决方案偏好”项目的一部分，旨在通过数据分析和LLM推理，预测机器学习解决方案在执行前的性能表现。数据集包含完整的解决方案语料库、实验子集、代理运行输出、分析工件和任务资源。主要目录包括：solutions_all/（完整解决方案语料库）、solutions_subset_50/（主实验子集，每任务50个解决方案）、solutions_subset_15/（分析子集，每任务15个解决方案）、agent_runs/（代理执行输出）、analysis_exp/（分析实验工件）、tasks/（任务资源中心）和docker_images/（缓存的Docker镜像）。每个任务文件夹包含annotation/、code/、ground_truth/、output/和report/子目录，分别存储语义标签、可运行解决方案、地面真实数据、运行时日志和评分报告。数据集适用于机器学习解决方案性能预测和相关分析任务。

提供机构：

ZJUNLP

创建时间：

2026-03-02

原始信息汇总

数据集概述

数据集基本信息

数据集名称: Can We Predict Before Executing Machine Learning Agents? -- Data
数据集地址: https://huggingface.co/datasets/zjunlp/PredictBeforeExecute
核心研究主题: 数据中心的解决方案偏好预测，即在执行机器学习解决方案之前预测哪个方案性能更好，利用数据分析和大型语言模型推理。

数据集内容结构

主要目录

solutions_all/
- 完整的解决方案语料库，包含所有可用解决方案，是其他子集的源池。
solutions_subset_50/
- 主实验子集，每个任务最多包含50个解决方案，用于论文主要实验。
solutions_subset_15/
- 分析子集，从solutions_subset_50/中采样，每个任务最多包含15个解决方案，用于下游分析实验。
agent_runs/
- 智能体执行输出，包含以下子文件夹：
  - agent_runs/AIDE/：AIDE生成的运行记录（每个运行包含任务名称和UUID）。
  - agent_runs/ForeAgent/：ForeAgent生成的运行记录（每个运行包含任务名称和UUID）。
- 详细结构见agent_runs/README.md。
analysis_exp/
- 分析实验产物（RQ1–RQ4），详情见其README。
tasks/
- 共享数据枢纽，包含竞赛配置、准备的数据、任务描述、数据分析报告和任务列表，详情见其README。
docker_images/
- 执行管道使用的缓存Docker镜像。
- docker_images/predict-before-execute.tar：预构建的镜像存档，与Dockerfile中引用的基础镜像匹配。
2601.05930v1.pdf
- 论文PDF的本地副本。

解决方案目录共享布局

三个solutions_*目录共享相同的内部结构，每个任务文件夹通常包含：

annotation/
- annotations_semantic.json：用于子集采样和分析的每个解决方案的语义标签。
- keywords_by_rank.json：按排名聚合的关键词统计。
code/
- solution_*.py：可运行的解决方案文件。
- submission_solution_*/：每个解决方案的执行产物（运行后创建）。
  - submission.csv：模型的预测提交。
  - exec_output.txt：执行日志/标准输出+标准错误。
  - eval_output.json：评分结果（如果已评估）。
ground_truth/
- groups_<task_name>_n*.json：用于评估的真实比较组。
output/
- output_*.txt：可选的运行时或提取日志。
report/
- grade_report_*.txt：人类可读的评分报告。
- alignment_*.json：从报告派生的对齐产物。

快速定位指南

主实验解决方案/日志：solutions_subset_50/
分析实验解决方案/日志：solutions_subset_15/
完整语料库（所有解决方案）：solutions_all/
智能体轨迹和日志：agent_runs/（详情见agent_runs/README.md）
分析实验产物（RQ1–RQ4）：analysis_exp/
任务资源（竞赛配置、准备的数据、描述、数据分析）：tasks/

相关资源链接

论文：https://arxiv.org/abs/2601.05930
代码：https://arxiv.org/abs/2601.05930
HuggingFace论文：https://huggingface.co/papers/2601.05930
数据与运行时（Google云端硬盘）：https://drive.google.com/drive/folders/1rn3GuRcl-BrnPG2xUJYCOJB-BwGp7bp0?usp=sharing
博客（𝕏）：https://x.com/zxlzr/status/2010603724931285141
小红书：http://xhslink.com/o/8Ac0jDoHeyw

搜集汇总

数据集介绍

构建方式

在机器学习代理研究领域，PredictBeforeExecute数据集的构建体现了对数据驱动决策的前瞻性探索。该数据集通过整合来自多个机器学习竞赛的解决方案，构建了一个全面的解决方案语料库。构建过程涉及从原始竞赛数据中提取代码解决方案，并对其进行系统化标注与分组，形成包含完整执行轨迹、评估输出及语义注释的结构化数据。每个任务文件夹均遵循统一的布局，涵盖代码文件、执行日志、评分报告及真实比较组，确保了数据的一致性与可追溯性。

使用方法

使用PredictBeforeExecute数据集时，研究者可依据具体实验目标灵活选取相应数据子集。对于主要性能预测实验，建议从solutions_subset_50目录中获取数据；若进行细致的行为分析，则可使用solutions_subset_15中的精简样本。数据集中的代理运行输出与任务资源为复现实验或扩展研究提供了必要支持。通过加载预构建的Docker镜像，用户可以快速搭建执行环境，确保实验流程的一致性。数据集的结构化布局也便于直接集成到现有的分析脚本或机器学习管道中。

背景与挑战

背景概述

在机器学习与人工智能领域，智能体执行前的性能预测成为提升系统效率与可靠性的关键研究方向。PredictBeforeExecute数据集由相关研究团队于2024年构建，旨在探索数据中心的解决方案偏好问题，即通过结合数据分析上下文与大语言模型推理，在未实际执行机器学习解决方案前预测其相对性能优劣。该数据集围绕多个具体任务，汇集了完整的解决方案语料库、代理运行输出及分析工件，为评估机器学习智能体的先验决策能力提供了标准化基准，对推动自动化机器学习与智能体系统优化具有重要影响。

当前挑战

该数据集致力于解决机器学习智能体在复杂任务中执行前性能预测的挑战，其核心问题在于如何仅依据解决方案的代码与上下文信息，准确判断不同方案的相对效能，从而避免资源密集型的实际执行。在构建过程中，研究团队面临多重挑战：需从多样化的解决方案中提取有效的语义特征与关键词统计，以支持可靠的子集采样与分析；同时，整合来自不同代理框架的运行轨迹与日志数据，确保评估的一致性与可复现性；此外，数据集的规模与结构复杂性要求精细的标注体系与执行管道的设计，以维持数据质量与实验效率。

常用场景

经典使用场景

在机器学习代理的研发领域，PredictBeforeExecute数据集为研究数据中心的解决方案偏好提供了核心实验平台。该数据集通过整合多样化的解决方案语料库、任务资源和代理运行输出，支持研究者基于数据分析和大型语言模型推理，在无需实际执行的情况下预测不同机器学习解决方案的性能优劣。其经典使用场景聚焦于构建和验证预测模型，以评估解决方案在特定任务中的潜在效果，从而优化代理决策流程。

解决学术问题

该数据集致力于解决机器学习代理研究中一个关键挑战：如何在实际执行前准确预测解决方案的性能。它通过提供丰富的语义标注、执行日志和评估结果，支持对数据驱动偏好预测机制的深入探索。这不仅促进了代理效率评估方法的创新，还为理解模型决策与数据上下文之间的关联提供了实证基础，推动了自动化机器学习中预测性分析范式的演进。

实际应用

在实际应用中，PredictBeforeExecute数据集可服务于智能代码生成、自动化机器学习流水线优化以及竞赛解决方案筛选等场景。例如，在编程竞赛或数据科学挑战中，该数据集能够帮助开发者快速识别高效算法方案，减少试错成本。同时，它也为企业级机器学习平台的代理系统提供了性能预评估框架，助力实现资源高效配置与任务执行策略的智能化改进。

数据集最近研究