five

ResearchCodeBench

收藏
arXiv2025-06-03 更新2025-06-05 收录
下载链接:
https://researchcodebench.github.io/
下载链接
链接失效反馈
官方服务:
资源简介:
ResearchCodeBench是一个包含212个编程挑战的基准数据集,用于评估大型语言模型(LLMs)将顶级2024-2025年研究论文中的前沿机器学习贡献转化为可执行代码的能力。该数据集涵盖了来自NeurIPS、ICLR、CVPR等顶级会议和arXiv的20篇最新机器学习论文,涉及生成模型、计算机视觉、理论、强化学习等多个领域。每个挑战都伴随有正确性测试,并由论文作者或领域专家共同开发,以确保其准确性和严谨性。

ResearchCodeBench is a benchmark dataset consisting of 212 programming challenges, designed to evaluate the ability of large language models (LLMs) to translate cutting-edge machine learning contributions from top-tier 2024-2025 research papers into executable code. This dataset covers 20 state-of-the-art machine learning papers from leading conferences including NeurIPS, ICLR, CVPR, as well as arXiv, spanning multiple domains such as generative models, computer vision, theoretical machine learning, and reinforcement learning. Each challenge is accompanied by correctness tests, and was co-developed by paper authors or domain experts to ensure its accuracy and rigor.
提供机构:
斯坦福大学
创建时间:
2025-06-03
原始信息汇总

ResearchCodeBench 数据集概述

基本信息

  • 数据集名称: ResearchCodeBench
  • 开发团队: Tianyu Hua, Harper Hua, Violet Xiang, Benjamin Klieger, Sang T. Truong, Weixin Liang, Fan-Yun Sun, Nick Haber (斯坦福大学)
  • 论文年份: 2025
  • 论文编号: arXiv:2506.02314

核心内容

  • 目标: 评估LLMs将机器学习研究论文转化为可执行代码的能力
  • 数据来源: 212个真实编程挑战,源自2024-2025年发表的顶级ML论文
  • 评估范围: 超过30个专有和开源模型
  • 关键发现: 表现最佳的LLMs解决不足40%的挑战

污染分析

  • 分析方法: 比较模型知识截止日期与代码仓库提交日期
  • 主要结论:
    • 20个仓库中有13个的首提交在所有模型截止日期之后
    • 无仓库早于2023年12月
    • 所有模型在污染安全子集上表现均下降

论文消融实验

  • 实验设计: 比较提供/不提供原始论文时的代码生成表现
  • 主要发现:
    • 顶级模型(Gemini-2.5-Pro等)可获得高达30%的性能提升
    • 小型模型表现无改善或下降

引用格式

bibtex @article{hua2025researchcodebench, title = {ResearchCodeBench: Benchmarking LLMs on Implementing Novel Machine Learning Research Code}, author = {Hua, Tianyu and Hua, Harper and Xiang, Violet and Klieger, Benjamin and Truong, Sang T. and Liang, Weixin and Sun, Fan-Yun and Haber, Nick}, journal = {arXiv preprint arXiv:2506.02314}, year = {2025} }

搜集汇总
数据集介绍
构建方式
ResearchCodeBench的构建过程经过精心设计,以确保其代表性和严谨性。首先,研究团队从顶级会议(如ICLR、NeurIPS、CVPR)和arXiv中精选了20篇最新的机器学习论文,涵盖生成模型、计算机视觉和强化学习等多个领域。每篇论文的核心贡献被提取并转化为212个编码挑战,这些挑战由论文作者或领域专家共同开发,确保其与论文原始意图一致。通过XML风格的标签对代码片段进行注释,生成填空式的代码补全任务,并辅以简洁的自然语言提示以减少歧义。
特点
ResearchCodeBench具有高质量、挑战性和灵活性三大特点。其任务由论文作者或领域专家验证,确保了任务的高可信度。所选论文多为模型预训练截止日期后发表的新研究,有效测试模型对陌生问题的理解和实现能力,而非依赖记忆。此外,该框架设计灵活,不仅适用于机器学习领域,还可扩展至生物学、物理学等其他学科。评估过程高效轻量,单个任务平均仅需1.25秒即可在普通笔记本电脑上完成。
使用方法
使用ResearchCodeBench时,目标语言模型需根据提供的论文内容和上下文代码,补全被标记为TODO的代码片段。生成的代码将替换原始文件中的对应部分,并通过精心设计的正确性测试进行验证。评估采用混合策略,结合等价性测试和单元测试,确保功能正确性。通过加权通过率(考虑代码行数)和标准通过率两个指标全面衡量模型表现。社区可通过在线提交系统贡献新论文和代码库,推动基准的持续扩展。
背景与挑战
背景概述
ResearchCodeBench是由斯坦福大学的研究团队于2025年提出的一个创新性基准测试数据集,旨在评估大型语言模型(LLMs)在实现最新机器学习研究论文中提出的新颖思想时的能力。该数据集包含212个编码挑战,这些挑战源自2024至2025年间顶级会议和期刊的20篇机器学习论文,涵盖了生成模型、计算机视觉、强化学习等多个领域。通过提供一个严格且基于执行的评估平台,ResearchCodeBench为研究代码生成的LLM驱动创新提供了持续的评估和理解。
当前挑战
ResearchCodeBench面临的挑战主要包括两个方面:领域问题的挑战和构建过程中的挑战。在领域问题方面,该数据集旨在解决LLMs在实现新颖研究思想时的能力评估问题,尤其是那些在预训练阶段未见过的思想。这一挑战的核心在于如何确保模型能够准确理解和实现论文中的创新性贡献,而不仅仅是重复已知的解决方案。在构建过程中,挑战包括如何从论文中识别核心创新贡献、如何设计具有层次结构的任务以覆盖不同难度级别、以及如何确保测试案例的质量和可靠性。此外,数据集的构建还需要处理代码依赖关系、确保测试的确定性,并控制潜在的预训练数据污染风险。
常用场景
经典使用场景
ResearchCodeBench作为评估大型语言模型(LLM)在实现机器学习研究代码方面能力的基准,其经典使用场景主要集中在测试模型如何将前沿研究论文中的创新思想转化为可执行代码。通过提供212个编码挑战,该数据集能够全面评估模型在处理未见过的研究概念时的表现,特别适用于验证模型在科学研究和工程实践中的实际编码能力。
实际应用
在实际应用中,ResearchCodeBench可用于优化LLM在科研编程任务中的表现,例如自动化实验代码生成、算法实现辅助和科研论文复现。其轻量级设计和高效执行特性使其能够在普通硬件上快速部署,为研究人员和工程师提供了一个实用的工具,以评估和改进模型在真实科研环境中的编码能力。
衍生相关工作
ResearchCodeBench的推出催生了一系列相关研究,包括改进模型对科学文献的理解能力、增强代码生成中的逻辑正确性,以及开发更高效的科研编程辅助工具。其社区驱动的扩展机制也激发了更多研究者贡献新的论文和编码挑战,进一步丰富了评估LLM在科研代码生成中能力的资源。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作