SciReplicate-Bench

Name: SciReplicate-Bench
Creator: 伦敦国王学院，艾伦·图灵研究所
Published: 2025-04-01 06:02:24
License: 暂无描述

arXiv2025-04-01 更新2025-04-07 收录

下载链接：

https://github.com/xyzCS/SciReplicate-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

SciReplicate-Bench是一个专为评估大型语言模型在从学术文章中生成代码的能力而设计的基准数据集。该数据集由36篇顶级自然语言处理会议论文中的100个代码复现任务组成，涵盖了算法理解与代码实现两个关键步骤。数据集基于最新发表的论文和开源代码仓库构建，旨在评估语言模型在理解算法描述、实现细节以及处理代码依赖等方面的能力。

SciReplicate-Bench is a benchmark dataset specifically designed to evaluate the code generation capabilities of large language models when generating code from academic articles. This dataset consists of 100 code replication tasks extracted from 36 top-tier natural language processing conference papers, covering two critical steps: algorithm comprehension and code implementation. Built upon recently published academic papers and open-source code repositories, this benchmark aims to assess language models' abilities to understand algorithm descriptions, grasp implementation details, and handle code dependencies.

提供机构：

伦敦国王学院，艾伦·图灵研究所

创建时间：

2025-04-01

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，算法复现是验证科研成果可靠性的关键环节。SciReplicate-Bench数据集的构建采用了严谨的四阶段流程：首先通过会议论文筛选系统从ACL、EMNLP等顶级会议中遴选2024年发表的36篇论文；随后建立可复现的Python环境并进行代码重构，将核心算法封装为独立函数；接着由专业标注团队进行细粒度标注，包括变量描述、代码注释及依赖关系；最后为每个任务配备包含10个测试案例的验证套件，确保评估的全面性和可重复性。整个标注过程平均每篇论文耗时12小时，充分保证了数据质量。

特点

该数据集具有三个显著特征：其一，任务设计聚焦真实科研场景，包含表示嵌入方法、损失函数等五大NLP核心任务类别；其二，创新性地引入了推理图准确率指标，通过代码注释与数据流构建有向无环图，量化评估模型对算法逻辑的理解程度；其三，提供完整的文献上下文和代码仓库环境，包含算法LaTeX描述、函数签名等九大组件，支持端到端的科研算法复现评估。数据集涵盖100个任务，均来自最新发表的前沿论文，有效避免了数据泄露风险。

使用方法

使用该数据集需遵循标准化评估流程：首先输入算法LaTeX描述和函数签名，模型需通过Paper Agent解析文献并提取关键算法要素；随后Code Agent在代码仓库中检索依赖项并生成实现代码。评估时采用多维度指标：推理图准确率衡量算法理解能力，执行准确率、CodeBLEU和依赖召回率评估代码质量。实验表明，最佳模型执行准确率仅达39%，凸显了任务的挑战性。研究人员可通过分析缺失/不匹配的算法描述等标注信息，针对性改进模型性能。

背景与挑战

背景概述

SciReplicate-Bench是由伦敦国王学院和艾伦图灵研究所的研究团队于2024年推出的创新性基准数据集，旨在评估大语言模型（LLMs）从自然语言处理（NLP）论文中生成可执行代码的能力。该数据集聚焦于算法复现这一核心科学问题，包含从36篇顶级会议论文中提取的100项任务，涵盖表示学习、损失函数设计等五大NLP子领域。作为首个面向学术论文算法复现的评估体系，其通过引入推理图准确率等创新指标，为衡量LLMs的算法理解与工程实现能力建立了新标准，对推动AI辅助科研的可靠性和可复现性研究具有里程碑意义。

当前挑战

该数据集面临双重挑战：在领域层面，需解决学术文本的语义密度高、算法描述分散、跨文献引用复杂等难题，现有模型执行准确率不足40%；在构建层面，需处理论文与代码间的信息缺失（如超参数未明确）、实现逻辑不一致（27%任务存在描述差异）等问题，平均每个任务的标注耗时达12小时。此外，代码依赖项的跨文件检索（仅34%召回率）和API正确调用（平均42%准确率）构成了主要技术瓶颈，这些挑战共同凸显了学术算法复现这一任务的复杂性。

常用场景

经典使用场景

在自然语言处理（NLP）领域，SciReplicate-Bench数据集被广泛用于评估大型语言模型（LLMs）从研究论文中生成算法代码的能力。这一任务要求模型不仅能够理解论文中描述的算法逻辑，还需具备将理论转化为可执行代码的实践能力。通过该数据集，研究者可以系统地测试模型在算法理解和代码实现两个关键维度上的表现，从而推动LLMs在科学计算和算法复现方面的应用。

衍生相关工作

围绕SciReplicate-Bench衍生的经典工作包括多智能体框架Sci-Reproducer，它通过论文智能体和代码智能体的协同工作提升算法复现效果。后续研究进一步探索了上下文学习（in-context learning）和实时编译器反馈等技术，以解决算法描述缺失或不一致的问题。这些工作共同推动了LLMs在科学计算领域的实用化进程。

数据集最近研究