RealisticEditBench

github2026-02-03 更新2026-02-05 收录

下载链接：

https://github.com/Anonymity-hub/RealisticEditBench

下载链接

链接失效反馈

官方服务：

资源简介：

RealisticEditBench是一个用于评估大型语言模型在从GitHub拉取请求收集的真实世界增量代码编辑任务上的基准测试。与传统专注于孤立代码生成或错误修复的基准不同，RealisticEditBench挑战模型执行增量代码编辑，反映开发者在生产环境中实际修改代码的方式。

RealisticEditBench is a benchmark for evaluating Large Language Models (LLMs) on real-world incremental code editing tasks collected from GitHub pull requests. Unlike traditional benchmarks that focus on isolated code generation or bug fixing, RealisticEditBench challenges models to perform incremental code edits that mirror how developers actually modify code in production environments.

创建时间：

2026-01-29

原始信息汇总

RealisticEditBench 数据集概述

数据集基本信息

数据集名称：RealisticEditBench
核心目标：评估大语言模型在从 GitHub Pull Request 收集的真实世界增量代码编辑任务上的性能。
任务特点：不同于专注于孤立代码生成或错误修复的传统基准，本数据集要求模型执行增量代码编辑，以反映开发者在生产环境中实际修改代码的方式。

关键特性

增量编辑：任务要求模型理解并基于先前的代码更改进行构建，模拟真实世界的开发工作流程。
项目级上下文：每个任务都包含相关的代码库上下文，要求模型推理项目结构和依赖关系。
真实世界任务：所有实例均收集自不同开源项目的实际 GitHub Pull Request。
综合评估：支持基于执行的测试和代码相似性度量。
基于 Docker 的评估：使用 Docker 容器实现可复现的评估工具。

数据集内容与结构

主基准数据集：crawled_data/bench/all-task-instances.jsonl（完整基准数据集）。
推理变体：位于 crawled_data/infbench/ 目录下，包含不同上下文配置的多个变体：
- 不同信息百分比（0.2, 0.4, 0.6, 0.8）。
- BM25 检索变体。
- 包含/不包含问题正文的变体。
项目结构：
- editbench/：主包（包含数据收集、编辑分割、推理、评估等模块）。
- crawled_data/：基准数据集。
- patch_histories/：历史补丁数据。
- assets/：项目资源。

数据获取与使用

本地加载：可通过 editbench.utils.dataset_utils 中的 get_inf_datasets 函数从本地文件加载数据集。
未来托管：数据集将很快上传至 Hugging Face，届时将更新访问说明。

评估要求与说明

系统要求：
- 评估目前不支持 Windows。
- 某些 Docker 环境在 Mac M 系列（ARM64）架构上可能无法正常工作。
- 推荐使用 Ubuntu 22.04 on x86_64 架构以确保所有环境都能成功设置。
资源建议：建议在至少拥有 120GB 可用存储空间、16GB RAM 和 8 个 CPU 核心的机器上运行评估。
评估命令：可通过 editbench.evaluation.run_evaluation 模块运行评估。

许可证

许可证类型：MIT 许可证。

搜集汇总

数据集介绍

构建方式

在软件工程领域，代码编辑任务的真实性评估一直是研究难点。RealisticEditBench的构建过程立足于真实开发场景，通过系统化收集GitHub拉取请求中的代码变更历史来构建任务实例。该过程首先筛选多样化的开源项目，从中提取包含多步编辑序列的拉取请求，随后通过自动化工具将每个编辑步骤拆分为独立的增量任务。每个任务实例均包含完整的代码库上下文、可选的任务描述以及先前的编辑历史，确保数据能够准确反映开发者在实际项目中逐步修改代码的完整工作流程。

特点

该数据集的核心特征体现在其高度仿真的任务设计上。所有编辑任务均源自真实的GitHub协作记录，要求模型在理解项目级代码结构和依赖关系的基础上，进行连续性的增量代码修改。数据集不仅提供了多种上下文配置变体，包括不同比例的信息呈现和检索增强版本，还支持基于Docker容器的可复现评估框架。这种设计使得评估能够全面覆盖代码编辑的语义理解、历史依赖推理以及项目环境适应性等多维度能力。

使用方法

使用该数据集进行评估时，研究人员需首先通过提供的工具加载数据集，并利用推理模块生成模型对增量编辑任务的补丁预测。评估过程采用容器化技术确保环境一致性，通过执行测试和代码相似度度量对预测结果进行双重验证。数据集支持灵活配置评估参数，包括并行工作线程数和任务实例筛选，但需注意其资源要求较高，建议在具备充足存储和计算资源的Linux系统上运行完整评估流程。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，代码生成与编辑任务长期依赖于孤立、简化的基准测试，难以反映真实开发场景中渐进式、项目级的代码修改需求。RealisticEditBench 数据集于2026年1月由匿名研究团队发布，旨在填补这一空白。该数据集从GitHub拉取请求中收集真实世界的增量代码编辑任务，核心研究问题是评估大型语言模型在理解代码库上下文、历史编辑记录及任务描述基础上，生成正确代码补丁的能力。其设计模拟了生产环境中开发者的实际工作流程，强调项目级语境与连续修改的依赖性，对推动代码智能助手、自动化编程工具的发展具有重要影响力。

当前挑战

RealisticEditBench 所针对的领域挑战在于，传统代码生成基准多聚焦于独立代码片段生成或缺陷修复，缺乏对真实开发中增量、上下文感知编辑过程的评估。构建过程中的挑战则体现在数据收集与处理的复杂性上：需从海量GitHub项目中筛选具有代表性的拉取请求，确保编辑历史连贯且任务描述清晰；同时，数据必须分割为合理的增量步骤，并构建可复现的Docker评估环境以支持执行测试与代码相似度度量，这对系统架构与计算资源提出了较高要求。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，RealisticEditBench为评估大型语言模型在真实世界增量代码编辑任务中的性能提供了基准。该数据集通过模拟开发者基于GitHub拉取请求的实际工作流程，要求模型在给定代码库、任务描述及先前编辑历史的情境下，生成准确反映连续修改的代码补丁。这种设计使得模型不仅需理解孤立代码片段，还需在项目级上下文中进行推理，从而捕捉软件开发中迭代演进的本质。

衍生相关工作

围绕RealisticEditBench，研究社区已衍生出一系列经典工作，包括基于编辑历史的代码补全模型、项目感知的代码变更预测框架，以及结合检索增强生成技术的增量编辑方法。这些工作不仅扩展了代码智能的应用边界，还促进了如EditSum、CommitBERT等模型在真实场景下的性能验证，为软件工程自动化研究提供了丰富的实验平台与理论支撑。

数据集最近研究