EDIT-Bench

Name: EDIT-Bench
Creator: Carnegie Mellon University, UC Berkeley, LMArena
Published: 2025-11-07 00:05:28
License: 暂无描述

arXiv2025-11-07 更新2025-11-08 收录

下载链接：

https://github.com/waynchi/editbench

下载链接

链接失效反馈

官方服务：

资源简介：

EDIT-Bench是一个用于评估大型语言模型（LLM）代码编辑能力的基准数据集。它由来自真实世界的用户指令和代码上下文组成，包括5种自然语言和2种编程语言。数据集包含545个问题，涉及多种现实世界的用例，从解决错误到添加功能。EDIT-Bench的独特之处在于它引入了上下文相关的问题，要求模型理解代码上下文、突出显示的代码和光标位置，而不仅仅是用户指令。该数据集旨在解决现有代码生成基准无法捕捉真实世界编辑行为的问题。

提供机构：

Carnegie Mellon University, UC Berkeley, LMArena

创建时间：

2025-11-07

原始信息汇总

EditBench 数据集概述

数据集基本信息

数据集名称: EditBench
数据来源: 基于 Copilot Arena 的真实代码编辑构建
存储位置: https://huggingface.co/datasets/copilot-arena/EditBench
许可证: Apache 2.0 License

数据集用途

提供生成代码片段的方法
在隔离的 Docker 容器中评估代码编辑

实验运行方法

快速开始

运行预生成代码编辑测试： bash bash run_experiment.sh examples/run_gpt_o3_mini_tests.py
生成并测试代码解决方案： bash bash run_experiment.sh examples/run_gpt_4o_mini_experiment.py --should_generate

主要功能

生成文件: 使用 generate_files 函数为指定模型生成代码文件
测试编辑: 使用 test_edits 函数运行模型生成的测试

技术特性

在 Docker 容器中执行实验
支持多线程生成解决方案
提供结果展示脚本 display_results_csv.py

开发信息

编程语言: Python 3.8+
贡献方式: 通过 GitHub Pull Request 提交贡献
联系方式: 通过 GitHub Issues 或直接联系维护者

搜集汇总

数据集介绍

构建方式

EDIT-Bench的构建过程体现了对真实世界编程场景的深度还原。研究团队开发了开源的VSCode扩展程序，模拟主流AI编程助手的交互模式，通过近500名开发者的日常编程活动收集数据。在数据采集过程中，系统记录用户编写的自然语言指令、关联的代码上下文、高亮代码段及光标位置等关键信息。经过多轮筛选，从2672个初始响应中剔除重复和简单问题，最终保留545个具有挑战性的编程任务，涵盖Python和JavaScript两种编程语言，并通过专业翻译确保五种自然语言的均衡分布。

特点

该数据集最显著的特征在于其真实性和多样性。数据源自开发者实际工作环境，用户指令呈现出丰富的语言风格和表达方式，从简洁的'修复这个错误'到详细的错误追踪信息。代码上下文长度差异显著，部分问题涉及超过一万字符的复杂代码环境，要求模型具备理解代码注释和高亮区域的能力。数据集包含功能添加、功能修改、错误修复和代码优化四大任务类别，其中功能添加占比43%，真实反映了软件开发中的常见需求。多语言支持进一步增强了数据集的代表性，使其成为评估模型跨语言编程能力的理想平台。

使用方法

使用EDIT-Bench进行评估时，研究者需向模型提供完整的代码文件、用户指令和高亮代码段。评估采用pass@1指标，即每个问题生成一个代码样本，通过所有单元测试即视为成功解决。数据集支持不同上下文信息的消融实验，可单独测试模型在仅有代码、添加高亮代码或包含光标位置等不同条件下的表现。测试环境通过Docker容器实现隔离，确保评估结果的可复现性。该基准测试特别强调模型对模糊指令的解析能力，要求其综合运用代码上下文中的各类线索来准确理解用户意图。

背景与挑战

背景概述

随着人工智能编程助手在软件开发中的广泛应用，指令式代码编辑逐渐成为主流交互模式。2025年，由卡内基梅隆大学与加州大学伯克利分校联合团队提出的EDIT-Bench基准测试应运而生，旨在系统评估大语言模型在真实场景下的代码编辑能力。该数据集通过开发模拟实际编程环境的VS Code扩展插件，收集了来自近500名开发者的自然语言指令与对应代码上下文，涵盖545个涉及错误修复、功能添加等多样化任务的编程问题。其创新性在于首次整合了代码高亮区域与光标位置等多维度上下文信息，为研究人机协作编程范式提供了重要实证基础。

当前挑战

EDIT-Bench面临的核心挑战在于如何精准建模真实软件开发中的语义复杂性。在领域问题层面，模型需解析非结构化自然语言指令与代码语境的深层关联，例如从模糊的'修复此问题'指令中推断具体错误类型。构建过程中，数据收集需平衡用户隐私与数据效用，测试用例标注需克服真实代码库的依赖复杂性，而多语言问题翻译则要维持编程语义的一致性。此外，长代码上下文（最高达万字符）对模型的信息提取能力提出严峻考验，不同编辑类别（如功能优化与错误修复）的性能差异进一步凸显了任务泛化能力的评估难点。

常用场景

经典使用场景

在人工智能辅助编程领域，EDIT-Bench作为首个基于真实世界使用场景构建的代码编辑基准测试，其经典应用体现在系统评估大语言模型在自然语言指令下的代码修改能力。该数据集通过模拟实际开发环境中的编辑行为，涵盖了从错误修复到功能添加等多样化编程任务，为研究社区提供了贴近现实需求的评估框架。

衍生相关工作

围绕EDIT-Bench衍生的经典研究包括对现有代码编辑模型的系统性评估比较，以及基于其发现的新型模型架构探索。该数据集促进了多模态代码理解、上下文感知编辑等方向的技术创新，同时为SWE-Bench、Aider Polyglot等相关基准测试提供了重要的补充视角，形成了覆盖代码生成、编辑与维护的完整评估生态。

数据集最近研究