Preference Corpus

Name: Preference Corpus
Creator: 浙江大学; 蚂蚁集团; 浙江大学·蚂蚁集团知识图谱联合实验室
Published: 2026-01-10 00:44:17
License: 暂无描述

arXiv2026-01-10 更新2026-01-13 收录

下载链接：

https://github.com/zjunlp/predict-before-execute

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由浙江大学与蚂蚁集团联合实验室构建，包含18,438对机器学习解决方案的偏好比较，覆盖计算机视觉、自然语言处理和数据分析三大领域的26项任务。数据源自真实AI代理（AIDE和AutoMind）在MLE-bench平台上的执行轨迹，经过专家筛选和平衡处理，确保算法多样性。每对数据均附有经过代码验证的语义化数据分析报告，用于训练模型预测解决方案性能而无需实际执行。该数据集旨在解决机器学习代理的'执行瓶颈'问题，为FOREAGENT等预测优先型AI提供训练基础，加速科学发现流程。

提供机构：

浙江大学; 蚂蚁集团; 浙江大学·蚂蚁集团知识图谱联合实验室

创建时间：

2026-01-10

原始信息汇总

数据集概述

基本信息

数据集名称：未提供
托管平台：GitHub
仓库地址：https://github.com/zjunlp/predict-before-execute

数据集状态

当前状态：代码即将发布，数据集详情未提供。

数据集内容

数据描述：未提供
数据规模：未提供
数据格式：未提供
数据领域：未提供

使用信息

获取方式：未提供
使用许可：未提供
引用要求：未提供

备注

该页面仅包含“code will be released soon.”的说明，无具体数据集信息。

搜集汇总

数据集介绍

构建方式

在自主机器学习代理面临执行瓶颈的背景下，Preference Corpus的构建旨在为数据驱动的解决方案偏好预测提供基准。该数据集通过系统化流程从真实世界代理轨迹中提炼而成：首先，从AIDE和AutoMind两个主流机器学习代理在MLE-Bench平台上的执行轨迹中，收集了1,329个经过验证的完整机器学习工作流解决方案，覆盖计算机视觉、自然语言处理和数据科学三大领域的26项任务。随后，采用专家参与循环流程对原始轨迹进行精细化处理，通过去重、自动化分类标记和专家抽样确保算法多样性，最终形成895个高质量实例。在此基础上，通过穷举生成配对组合并应用严格过滤机制，剔除模糊配对并平衡真实优胜者位置以消除顺序偏差，最终构建出包含18,438个配对比较的大规模语料库。每个数据实例均通过“代码-执行-语言化”协议进行增强，将原始数据转化为经过验证的语义化数据分析报告，为模型提供可靠的推理基础。

使用方法

该数据集主要服务于数据驱动解决方案偏好预测任务的评估与模型开发。研究人员可将数据集划分为标准训练集、验证集和测试集，用于评估大语言模型在给定任务描述、数据分析报告和候选代码对的情况下，预测优胜解决方案的准确率与置信度校准能力。典型使用流程遵循论文定义的输入输出规范：输入包含任务描述、验证数据分析报告、代码对及系统提示；输出则要求模型生成推理链、预测结果及置信度分数。数据集支持微平均准确率作为核心评估指标，并可扩展至列表排序场景下的斯皮尔曼相关系数等指标。在应用层面，该数据集可作为训练可扩展奖励模型的基础语料，用于加速强化学习推演过程；也可集成至FOREAGENT等预测-验证循环架构中，作为隐式世界模型过滤器，在物理执行前对候选解决方案进行高效筛选，从而突破传统生成-执行-反馈范式中的执行瓶颈。

背景与挑战

背景概述

Preference Corpus 数据集由浙江大学与蚂蚁集团联合实验室于2026年构建，旨在应对自主机器学习代理在科学发现领域面临的执行瓶颈问题。该数据集的核心研究问题是数据中心的解决方案偏好预测，即在不进行物理执行的前提下，通过推理预测两个机器学习解决方案的相对性能。其构建灵感源于世界模型理念，试图将数小时的物理执行压缩为秒级的逻辑推理。该数据集包含来自计算机视觉、自然语言处理与数据科学三大领域的26项任务，共计18,438对解决方案比较，为评估大语言模型的隐式世界建模能力提供了基准，对推动高效能机器学习代理的发展具有重要影响力。

当前挑战

该数据集旨在解决的领域挑战是数据中心的解决方案偏好预测，其核心在于要求模型仅依据任务描述、数据报告和代码，通过推理而非执行来判别解决方案优劣，这涉及对算法逻辑与随机数据间复杂耦合关系的深度理解。在构建过程中，主要挑战包括：首先，需从真实世界代理轨迹中收集并筛选高质量解决方案实例，确保其代表完整的机器学习工作流而非合成代码片段；其次，为克服大语言模型对原始数值数据的处理局限，需设计严格的“代码-执行-语言化”协议来生成语义可靠的数据分析报告；最后，在构建配对比较时，需通过专家介入流程进行去重、分类标注与采样，以控制主导方法、确保算法多样性，并过滤模糊配对以减轻位置偏差。

常用场景

经典使用场景

在自主机器学习代理的研究领域，Preference Corpus的核心应用场景在于评估和验证大型语言模型是否能够在不执行物理计算的前提下，准确预测不同机器学习解决方案的相对性能。该数据集通过提供包含任务描述、已验证数据分析报告以及成对代码解决方案的输入，构建了一个模拟的“隐式世界模型”测试环境。研究者利用该数据集，能够系统地探究语言模型如何将原始数据特征转化为语义理解，并基于此对算法逻辑与数据随机性之间的复杂耦合关系进行推理，从而在代码生成与执行的经典循环之外，开辟出一条基于先验知识的快速评估路径。

解决学术问题

Preference Corpus的构建，旨在从根本上解决自主机器学习代理研究中的一个核心瓶颈——执行瓶颈。传统“生成-执行-反馈”范式严重依赖耗时且昂贵的物理执行来获得模型性能反馈，极大地限制了代理的探索效率与规模。该数据集通过形式化“以数据为中心的解决方案偏好”任务，将评估过程从物理执行转移到逻辑推理，使得研究者能够探究语言模型内化执行先验知识的能力。它解决了如何将数小时的物理执行压缩为秒级逻辑推断这一关键学术问题，为开发不依赖运行时检查的高效机器学习代理提供了理论基础与评估基准。

实际应用

该数据集的实际价值在FOREAGENT这类混合自主机器学习代理中得到了充分体现。FOREAGENT采用“预测-验证”循环，将Preference Corpus所验证的预测机制作为前置过滤器。在代理并行生成大量候选解决方案后，利用训练好的世界模型对它们进行快速评估与排序，仅对置信度最高的少数方案进行物理执行验证。这一模式在实际的机器学习工程任务中，能够将解决方案的搜索空间平均扩大3.2倍，同时实现6倍的收敛加速，并在多项科学发现任务中取得超越纯执行基线6%的性能提升，显著提升了AI4Science场景下的研发效率。

数据集最近研究