paper2env-paperbench

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/thibble/paper2env-paperbench

下载链接

链接失效反馈

官方服务：

资源简介：

Paper2Env — PaperBench-style 是一个用于论文复现子任务的数据集。每行数据代表一个任务，包含一个用于评分的验证脚本（`verify.sh`）和一个针对上游GitHub仓库在固定提交时的文本-only `git diff`补丁。数据集包含论文元数据（如标题、作者、GitHub URL）、完整的Markdown提取、评分标准（rubric JSON）、任务描述、生成参考输出的脚本、文本补丁、以及指向参考输出的指针等。数据集还包含一个配套的存储库（`thibble/paper2env-artifacts`），用于存储每个任务的二进制文件（如论文PDF、资源、评分预期输出等）。数据集规模为235个示例，总大小为471847239字节。

Paper2Env — PaperBench-style is a dataset for paper reproduction subtasks. Each line of data represents a task, containing a verification script (`verify.sh`) for scoring and a text-only `git diff` patch for the upstream GitHub repository at a fixed commit. The dataset includes paper metadata (such as title, authors, GitHub URL), complete Markdown extraction, scoring criteria (rubric JSON), task descriptions, scripts for generating reference outputs, text patches, and pointers to reference outputs. The dataset also includes a companion repository (`thibble/paper2env-artifacts`) for storing binary files for each task (such as paper PDFs, resources, scoring expected outputs, etc.). The dataset contains 235 examples with a total size of 471847239 bytes.

创建时间：

2026-05-06

原始信息汇总

数据集概述：Paper2Env — PaperBench-style

该数据集用于论文复现子任务的构造与评估，每个任务对应一个可独立验证的论文复现子问题。

基本信息

许可证: MIT
任务类型: 文本生成（text-generation）
语言: 英语（en）
数据集规模: 少于 10,000 条样本（n < 10K）
配置: 默认配置（default），仅包含训练集（train）
训练集大小: 共 235 条样本，总计约 471.85 MB（下载大小约 85.41 MB）

数据字段

字段名	类型	描述
`paper_id`	string	论文的文件夹式 ID
`task_id`	string	任务的 UUID
`title`	string	论文标题
`authors`	list of string	作者列表
`github_url`	string	论文相关 GitHub 仓库 URL
`base_commit`	string	转换时钉住的上游 HEAD 提交
`paper_md`	string	论文的完整 Markdown 提取文本
`paper_rubric`	string	论文评分标准（JSON 格式）
`paperbench_rubric`	string	PaperBench 评分标准（JSON 格式）
`task_md`	string	任务描述（PaperBench 格式）
`verify_sh`	string	评分脚本，运行方式为 `bash verify.sh /path/to/repo`
`generate_artifact_sh`	string	参考输出的生成方式
`patch`	string	针对 `base_commit` 的纯文本 `git diff --cached` 补丁
`artifact_path`	string	产物在配套数据集中的路径
`artifact_repo`	string	产物的配套数据集名称（`thibble/paper2env-artifacts`）
`reference_score`	float64	完美/参考解决方案的得分
`created_at`	string	任务的原始创建时间戳

数据划分

训练集（train）: 235 条样本，总字节数约 471.85 MB

使用方式

数据集中的每个任务包含一个验证脚本（verify.sh）和一个文本格式的 git diff 补丁，可基于钉住的 GitHub 仓库提交进行本地重建与评分。配套的二进制产物（如论文 PDF、资产、评分预期输出等）存储在关联数据集 thibble/paper2env-artifacts 中，路径格式为 paperbench/<paper_id>/<task_id>.tar.gz。

本地重建示例

可使用 datasets 库加载数据，克隆相关仓库、应用补丁、下载产物并执行验证脚本；也可使用 paper2env 仓库中的辅助脚本快速重构。

搜集汇总

数据集介绍

构建方式

在人工智能研究领域，复现学术论文中的实验结果始终是验证方法可重复性与推动技术演进的核心挑战。Paper2Env-PaperBench数据集正是为解决这一痛点而精心构建的，它从科学论文中提取可复现的环境、代码与验证逻辑，形成结构化的任务单元。每个任务对应一篇论文的特定子任务，包含指向GitHub仓库的提交锁定、纯文本git diff补丁、验证脚本以及完整的论文Markdown摘要。为确保任务执行的一体化，相关二进制构件（如论文PDF、预期输出、学生仓库需要添加的文件）被单独打包存储于配套数据仓库中，通过artifact_repo与artifact_path字段进行精确索引，从而形成了完整、可独立运行的基准测试环境。

特点

该数据集最显著的特色在于其端到端的自动评估能力与细粒度的任务设计。每个任务均配备一个bash verify.sh脚本，能够对特定仓库的运行结果进行自动化打分，并附带一个由reference_score字段记录的完美解决方案得分，为模型能力的量化评估提供了明确标尺。数据集包含235条样例，每条样例横向覆盖论文ID、任务UUID、标题与作者列表等元数据，纵向则深入到论文摘要、评分标准JSON、任务描述Markdown以及生成产出物的脚本，通过层级化、多模态的信息结构完整地刻画了从论文理解到代码复现的完整链条。

使用方法

使用者可以通过HuggingFace Datasets库直接加载数据集，并根据paper_id与task_id筛选特定的任务实例。典型的复现流程包括：首先利用git clone与git checkout将仓库重置到指定的基准提交，随后应用patch字段中的文本差异补丁，再从配套构件仓库下载并解压二进制覆盖文件，最后将verify.sh脚本置于工作目录并执行验证。为简化操作流程，官方提供了封装好的辅助命令行工具，通过uv run python -m src.scripts.publish_hf reconstruct命令，只需传入数据来源类型、论文ID与任务UUID即可一键生成完整的任务工作区，大幅降低了实验复现的门槛。

背景与挑战

背景概述

在人工智能与科学文献交叉融合的前沿领域，自动化复现学术论文中的实验方法已成为加速科研进展的关键瓶颈。本研究团队于近年创建了paper2env-paperbench数据集，旨在弥合自然语言论文描述与可执行环境之间的鸿沟。该数据集由thibble等研究人员主导开发，核心研究问题聚焦于如何将论文中的方法论转化为可验证、可评分的具体任务，从而推动基于语言模型的自动代码生成与科学实验复现。其影响力体现在为大型语言模型提供了一个结构化的基准测试平台，通过235个精心构造的论文复现子任务，覆盖了从文本补丁应用到二进制工件构建的完整流程，显著促进了可复现计算研究的发展。

当前挑战

该数据集所面临的挑战主要体现在两个层面。在领域问题层面，其核心挑战在于解决论文方法至可执行环境的自动转化难题，这要求模型能够准确理解学术文本中的算法描述、数学公式及实验结果，并将其映射为符合Git工作流规范的代码变更。在构建过程中，挑战则集中于任务粒度的合理划分与验证脚本的自动化生成，尤其是需要确保每个子任务的 exttt{verify.sh}评分脚本能客观衡量复现质量，同时维护 exttt{base_commit}依赖的一致性，并处理二进制文件与文本补丁的协同部署，这对数据集的完整性与可靠性提出了严苛要求。

常用场景

经典使用场景

在人工智能与科学文献自动化复现的交叉领域，paper2env-paperbench数据集为评估和训练大型语言模型在端到端论文复现任务中的表现提供了关键基准。该数据集精心构建了235个粒度为子任务的复现单元，每个单元包含论文的完整Markdown提取、评估脚本（verify.sh）、基于Git的代码差异补丁以及二进制工件索引，使研究者能够以标准化的方式考察模型从论文理解、代码生成到环境配置的全链条推理与操作能力。其经典使用场景聚焦于设计一种自动化的环境搭建与验证流程，以检验模型能否解析学术论文中的方法描述并生成可执行、可验证的代码实现。

解决学术问题

学术研究中长期存在的核心难题在于，如何客观、可重复地衡量AI系统对科学文献中理论与技术细节的理解深度及迁移应用能力。paper2env-paperbench直面这一挑战，通过将论文复现拆解为具有清晰评估准则的子任务，并配套严格的自动化验证脚本，为量化模型在代码生成、依赖管理、执行环境配置等环节的鲁棒性提供了可靠标尺。该数据集破解了传统人工评估主观性强、成本高昂的困局，推动了可计算科学复现领域从定性分析向定量评估的范式跃迁，其深远影响在于为构建具备自主科研能力的智能体铺平了道路，使学术成果的验证与再创新得以在统一的工程化框架下高效推进。

衍生相关工作

围绕paper2env-paperbench数据集，衍生出一系列富有影响力的研究工作。最直接的成果是PaperBench评估基准本身，它系统性地定义了论文复现任务的难度分层与评分体系，成为后续诸多研究工作效仿的标杆。在此基础上，研究者开发了基于检索增强生成（RAG）的论文代码自动生成流水线，通过将paper_md与外部代码库索引结合，提升了模型对论文中公式与伪代码的翻译精度。另一类经典工作聚焦于环境感知的智能体系统，利用数据集中提供的verify.sh作为奖励信号，训练强化学习模型在虚拟计算环境中自主调试和修复代码缺陷。这些衍生工作共同勾勒出从数据集到方法论再到实用工具的创新生态，持续推动着可复现科研与自动化科学发现的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集