paper2env-scraped

Hugging Face2026-05-06 更新2026-05-07 收录

下载链接：

https://huggingface.co/datasets/thibble/paper2env-scraped

下载链接

链接失效反馈

官方服务：

资源简介：

Paper2Env — scraped arXiv 是一个专注于论文复现任务的数据集，每条记录代表一个论文复现子任务。数据集包含来自arXiv的论文及其对应的GitHub仓库信息，每个任务配有验证脚本（verify.sh）用于评分，以及针对上游GitHub仓库在固定提交点的文本差异补丁（git diff patch）。数据集包含174个训练样本，主要字段包括论文ID、任务ID、标题、作者、GitHub URL、基础提交哈希、论文Markdown内容、评分标准、任务描述、验证脚本、生成参考输出的脚本、差异补丁、参考分数等。二进制文件（如论文PDF、资源文件等）存储在配套的artifacts仓库中。该数据集适用于文本生成和相关研究任务。

Paper2Env — scraped arXiv is a dataset focused on paper reproduction tasks, with each record representing a sub-task of paper reproduction. The dataset contains papers from arXiv and their corresponding GitHub repository information. Each task is equipped with a verification script (verify.sh) for scoring, as well as text difference patches (git diff patch) for the upstream GitHub repository at fixed commit points. The dataset contains 174 training samples, with main fields including paper ID, task ID, title, author, GitHub URL, base commit hash, paper Markdown content, scoring criteria, task description, verification script, script for generating reference output, difference patch, reference score, etc. Binary files (such as paper PDFs, resource files, etc.) are stored in the accompanying artifacts repository. This dataset is suitable for text generation and related research tasks.

创建时间：

2026-05-06

原始信息汇总

数据集概述：Paper2Env — scraped arXiv

该数据集是一个用于论文复现任务的数据集，每个任务对应一篇论文中的一个可复现子任务，并提供了验证脚本和代码补丁。

数据集基本信息

许可证：MIT
任务类型：文本生成（text-generation）
语言：英语（en）
数据规模：小于 10K 条（n<10K）
配置：单配置（default），仅包含训练集
训练集大小：174 条示例，总字节数约 112 MB

数据格式与结构

每条数据包含一个论文复现子任务，具体字段如下：

字段	说明
`paper_id`	论文的文件夹式 ID
`task_id`	任务的 UUID
`title`	论文标题
`authors`	作者列表（字符串数组）
`github_url`	论文相关的 GitHub 仓库地址
`base_commit`	上游仓库在转换时的固定提交哈希
`paper_md`	论文的完整 Markdown 提取文本
`paper_rubric`	论文的评分标准 JSON
`paperbench_rubric`	PaperBench 格式的评分标准（可能为空）
`task_md`	任务描述（PaperBench 格式）
`verify_sh`	验证脚本，用于评分，运行方式为 `bash verify.sh /path/to/repo`
`generate_artifact_sh`	生成参考输出的脚本
`patch`	针对 `base_commit` 的纯文本 `git diff --cached` 补丁
`artifact_path`	二进制工件文件路径
`artifact_repo`	二进制工件所在的数据集仓库
`reference_score`	完美/参考解决方案的得分（浮点数）
`created_at`	任务创建的原始时间戳

数据获取与本地重建

主数据集：thibble/paper2env-scraped
二进制工件仓库：thibble/paper2env-artifacts，工件位于 scraped/<paper_id>/<task_id>.tar.gz

用户可通过 datasets 库加载数据集，并使用提供的 GitHub 仓库地址、固定提交哈希和补丁来重构本地任务环境，随后运行 verify.sh 脚本进行评分。更便捷的方式是使用 paper2env 仓库中的辅助脚本。

相关资源

辅助工具仓库：paper2env repo

搜集汇总

数据集介绍

构建方式

该数据集源于对arXiv平台上学术论文的自动化爬取与结构化处理，旨在将论文中的可复现子任务转化为标准化的环境评测基准。每个数据条目对应一个独立的论文复现子任务，其构建过程包括从论文中提取任务描述、关联其对应的GitHub仓库并锁定特定提交版本，随后生成用于评估提交结果的验证脚本以及文本格式的git差异补丁。二进制工件（如论文PDF、预期输出等）则被单独存储于配套的数据集中，通过元数据中的指针建立关联，从而形成一个完整且轻量的任务重建体系。

特点

该数据集的核心特色在于其细粒度、可执行的任务单元设计。每条记录不仅包含论文元数据、完整任务描述和评分规则，还囊括了可运行的验证脚本与精确的代码补丁，使得任务的复现与评估能够完全自动化。此外，数据集通过分离文本与二进制数据、提供标准的任务重建流程，大幅降低了研究者复现论文实验的门槛，为衡量AI系统在真实科研场景中的代码生成与问题解决能力提供了一个高保真度的测试平台。

使用方法

用户可通过HuggingFace Datasets库便捷地加载数据，并依据数据集提供的脚本和补丁在本地复现任务环境。推荐的使用流程包括：克隆上游仓库并切换到指定提交，应用文本补丁以添加任务实现，从配套数据集下载二进制工件并覆盖于工作树之上，最后利用验证脚本对提交的解决方案进行评分。为简化操作，官方还提供了一个命令行工具，用户仅需指定论文ID与任务UUID即可一键完成环境的搭建与重建。

背景与挑战

背景概述

随着人工智能研究范式的演进，将学术论文中的创新方法转化为可复现、可验证的代码实现已成为推动领域进步的关键瓶颈。为弥合理论与工程实践之间的鸿沟，研究人员亟需系统化的基准与工具链来评估自动化论文复现的能力。在此背景下，受PaperBench等前沿工作的启发，由thibble等研究者于近期创建的paper2env-scraped数据集应运而生，聚焦于将arXiv论文转化为可执行的环境任务。该数据集的核心研究问题在于如何从论文中提取结构化的复现信息，并通过标准化脚本来衡量复现质量，其影响力体现在为自动化论文复现评估提供了首个规模化、高度结构化的资源，为后续研究奠定了数据基础。

当前挑战

该数据集面临的挑战主要体现在两个层面。在领域问题层面，其核心是解决学术论文复现的自动化评估难题，即如何将非结构化的论文文本（包括图表、算法伪代码与实验结果）精准转化为标准化的可执行验证任务，同时确保评分规则的客观性与可迁移性。在构建过程中，挑战尤为显著：首先需要处理海量arXiv论文的多模态异构信息，实现从论文到任务的自动化抽取与模板化转化；其次需维护二进制资源（如PDF、期望输出）与文本补丁之间的版本一致性；此外，还面临跨仓库协作、依赖环境隔离及验证脚本鲁棒性等工程化难点。

常用场景

经典使用场景

paper2env-scraped数据集为学术论文的可重复性研究提供了坚实的数据基石，其核心用途在于构建一个从论文文本到可执行环境的自动化转换管道。具体而言，研究者可利用该数据集训练或评估生成式模型，使其能够根据输入的论文摘要、方法描述乃至完整稿件，输出对应的代码仓库、环境配置及验证脚本，从而实现对论文实验的端到端复现。每一行数据均对应一个论文复现子任务，包含GitHub仓库URL、基线提交哈希、文本补丁（patch）及评分脚本（verify.sh），为监督学习范式下的代码生成与软件工程自动化任务提供了结构化的训练与评测基准。

解决学术问题

该数据集精准地回应了计算科学领域长期存在的“可重复性危机”，使研究者能够系统性地量化与提升论文复现的自动化程度。通过提供标准化的任务格式与评分机制，它解决了以往人工复现成本高昂、标准不一、难以规模化评估的困境。学术界可借此深入探究预训练大语言模型在理解学术文献、生成可执行代码与环境配置方面的真实能力边界，推动自然语言处理与软件工程交叉领域的理论发展，并为构建更可靠的学术知识验证体系提供实证基础。

衍生相关工作

围绕paper2env-scraped数据集，衍生出了一系列具有代表性的研究方向与工作。其中最具影响力的是PaperBench基准测试框架，该框架将数据集中的任务组织为统一的评测集，用于系统评估不同生成模型在论文复现任务上的表现。此外，研究者基于该数据集开发了多种“从论文到环境”（Paper-to-Environment）的自动化流水线，例如结合大型语言模型与代码搜索的方法，以提升补丁生成的准确性；同时，也有工作专注于分析补丁语义与论文文本之间的对齐质量，推动了可解释代码生成领域的发展。这些衍生产品共同构成了一个生机勃勃的研究生态，持续拓展着自动化科学复现的技术前沿。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集