m-a-p/CodeEditorBench

Name: m-a-p/CodeEditorBench
Creator: m-a-p
Published: 2024-04-05 01:52:45
License: 暂无描述

Hugging Face2024-04-05 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/m-a-p/CodeEditorBench

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 --- # CodeEditorBench [**🌐 Homepage**](https://codeeditorbench.github.io/) | [**🤗 Dataset**](https://huggingface.co/datasets/m-a-p/CodeEditorBench) | [**📖 arXiv**](https://arxiv.org/pdf/2404.03543.pdf) | [**GitHub**](https://github.com/CodeEditorBench/CodeEditorBench) ## Introduction Large Language Models (LLMs) for code are rapidly evolving, with code editing emerging as a critical capability. We introduce CodeEditorBench, an evaluation framework designed to rigorously assess the performance of LLMs in code editing tasks, including debugging, translating, polishing, and requirement switching. Unlike existing benchmarks focusing solely on code generation, CodeEditorBench emphasizes real-world scenarios and practical aspects of software development. We curate diverse coding challenges and scenarios from five sources, covering various programming languages, complexity levels, and editing tasks. Evaluation of 19 LLMs reveals that closed-source models (particularly Gemini-Ultra and GPT-4), outperform open-source models in CodeEditorBench, highlighting differences in model performance based on problem types and prompt sensitivities. CodeEditorBench aims to catalyze advancements in LLMs by providing a robust platform for assessing code editing capabilities. We will release all prompts and datasets to enable the community to expand the dataset and benchmark emerging LLMs. By introducing CodeEditorBench, we contribute to the advancement of LLMs in code editing and provide a valuable resource for researchers and practitioners. ![Alt text](tech_route.png) ## Results <div style="display: flex; justify-content: space-around; align-items: center;"> <img src="Models_Zero_Shot.png" alt="First Image Description" style="width: 48%;" /> <img src="win_rate_zero.png" alt="Second Image Description" style="width: 48%;" /> </div> We propose evaluating LLMs across four scenarios capturing various code editing capabilities, namely code debug, code translate, code polish, and code requirement switch.The figure in left depicts various model performances across the four scenarios available in CodeEditorBench\_Plus in a radial plot – highlighting how relative differences across models change across the scenarios. We also give the Performance of open-source and closed-source models on CodeEditorBench\_Plus in zero-shot evaluated through win\_rate in the right figure. 🎯All results of models are generated by greedy decoding. ✨Code Debug, Code Translate and Code Requirement Switch are evaluated with pass@1, while Code Polish is evaluated with Mean OptScore. ## Disclaimers The guidelines for the annotators emphasized strict compliance with copyright and licensing rules from the initial data source, specifically avoiding materials from websites that forbid copying and redistribution. Should you encounter any data samples potentially breaching the copyright or licensing regulations of any site, we encourage you to [contact](#contact) us. Upon verification, such samples will be promptly removed. ## Contact  - Ge Zhang: zhangge@01.ai - Wenhu Chen: wenhuchen@uwaterloo.ca - Jie Fu: jiefu@ust.hk ## Citation **BibTeX:** ```bibtex @misc{guo2024codeeditorbench, title={CodeEditorBench: Evaluating Code Editing Capability of Large Language Models}, author={Jiawei Guo and Ziming Li and Xueling Liu and Kaijing Ma and Tianyu Zheng and Zhouliang Yu and Ding Pan and Yizhi LI and Ruibo Liu and Yue Wang and Shuyue Guo and Xingwei Qu and Xiang Yue and Ge Zhang and Wenhu Chen and Jie Fu}, year={2024}, eprint={2404.03543}, archivePrefix={arXiv}, primaryClass={cs.SE} } ```

许可证: apache-2.0 # CodeEditorBench [🌐 项目主页](https://codeeditorbench.github.io/) | [🤗 数据集仓库](https://huggingface.co/datasets/m-a-p/CodeEditorBench) | [📖 arXiv论文](https://arxiv.org/pdf/2404.03543.pdf) | [GitHub 仓库](https://github.com/CodeEditorBench/CodeEditorBench) ## 简介面向代码的大语言模型（Large Language Models，LLMs）正快速演进，代码编辑能力已成为其核心关键能力之一。本研究提出CodeEditorBench，一款旨在严格评估大语言模型代码编辑能力的评测框架，覆盖代码调试、代码翻译、代码优化以及需求切换四类编辑任务。与仅聚焦代码生成的现有基准测试不同，CodeEditorBench更贴近软件开发的真实场景与工程实践细节。研究团队从五大数据源中精选了多样化的代码挑战与场景，覆盖多种编程语言、不同复杂度等级以及各类代码编辑任务。通过对19款大语言模型的评测发现，闭源模型（尤其是Gemini-Ultra与GPT-4）在CodeEditorBench上的表现优于开源模型，这凸显了不同模型在任务类型与提示词敏感度上的性能差异。 CodeEditorBench旨在通过搭建可靠的代码编辑能力评测平台，推动大语言模型领域的技术进步。研究团队将公开全部提示词与数据集，以便社区扩展数据集并对新兴大语言模型进行评测。本研究提出的CodeEditorBench将为代码编辑领域的大语言模型发展提供助力，并为研究者与工程实践者提供宝贵的评测资源。 ![技术路线图](tech_route.png) ## 评测结果 <div style="display: flex; justify-content: space-around; align-items: center;"> <img src="Models_Zero_Shot.png" alt="零样本下各模型性能对比" style="width: 48%;" /> <img src="win_rate_zero.png" alt="零样本胜率对比" style="width: 48%;" /> </div> 本研究将大语言模型的代码编辑能力拆解为四类场景：代码调试、代码翻译、代码优化与需求切换，并基于此开展评测。左侧径向雷达图展示了各模型在CodeEditorBench_Plus四类任务上的性能表现，直观呈现了不同模型间的相对性能差异如何随任务场景变化；右侧图表则通过胜率（win_rate）展示了开源与闭源模型在CodeEditorBench_Plus上的零样本评测结果。 🎯 所有模型的评测结果均基于贪心解码生成。 ✨ 代码调试、代码翻译与需求切换任务采用pass@1指标进行评测，代码优化任务则采用平均最优得分（Mean OptScore）作为评测标准。 ## 免责声明标注指南明确要求标注人员严格遵守原始数据源的版权与许可协议，特别需规避来自禁止复制与再分发的网站的素材。若您发现任何数据样本可能侵犯任何站点的版权或许可规范，欢迎[联系](#contact)我们，经核实后相关样本将立即移除。 ## 联系方式 - 郭佳伟：moriatysss152@gmail.com - 李梓明： - 刘雪玲： - 马凯静： - 张戈：zhangge@01.ai - 陈文虎：wenhuchen@uwaterloo.ca - 傅杰：jiefu@ust.hk ## 引用 **BibTeX:** bibtex @misc{guo2024codeeditorbench, title={CodeEditorBench: Evaluating Code Editing Capability of Large Language Models}, author={Jiawei Guo and Ziming Li and Xueling Liu and Kaijing Ma and Tianyu Zheng and Zhouliang Yu and Ding Pan and Yizhi LI and Ruibo Liu and Yue Wang and Shuyue Guo and Xingwei Qu and Xiang Yue and Ge Zhang and Wenhu Chen and Jie Fu}, year={2024}, eprint={2404.03543}, archivePrefix={arXiv}, primaryClass={cs.SE} }

提供机构：

m-a-p

原始信息汇总

CodeEditorBench 数据集概述

数据集介绍

CodeEditorBench 是一个评估框架，旨在严格评估大型语言模型（LLMs）在代码编辑任务中的性能，包括调试、翻译、优化和需求切换。该数据集不同于仅关注代码生成的现有基准，它强调实际软件开发的现实场景和实用方面。数据集从五个不同来源精心挑选了多样化的编程挑战和场景，涵盖多种编程语言、复杂度级别和编辑任务。

数据集特点

任务多样性：包括代码调试、翻译、优化和需求切换。
模型评估：对19个LLMs进行评估，揭示了闭源模型（如Gemini-Ultra和GPT-4）在CodeEditorBench中优于开源模型的性能。
评估方法：代码调试、翻译和需求切换使用pass@1评估，代码优化使用Mean OptScore评估。

数据集用途

CodeEditorBench 旨在通过提供一个强大的平台来评估代码编辑能力，推动LLMs的进步和创新。数据集的发布将包括所有提示和数据，以支持社区扩展数据集并基准测试新兴的LLMs。

版权与合规性

数据集的标注指南强调严格遵守从初始数据源的版权和许可规则，特别避免使用禁止复制和重新分发的网站材料。如发现任何可能违反版权或许可规定的数据样本，鼓励联系数据集维护者进行核实和移除。

联系方式

Ge Zhang: zhangge@01.ai
Wenhu Chen: wenhuchen@uwaterloo.ca
Jie Fu: jiefu@ust.hk

搜集汇总

数据集介绍

构建方式

在软件工程领域，代码编辑能力是衡量大型语言模型实用性的关键维度。CodeEditorBench的构建过程体现了严谨的学术方法，其数据源自五个精心筛选的渠道，涵盖了调试、翻译、优化与需求转换等多种真实编程场景。构建团队通过整合不同编程语言与复杂度的任务，确保了数据集的多样性与代表性。在数据收集阶段，严格遵守了版权与许可规范，仅采纳允许复制与再分发的材料，从而保障了数据源的合法性与伦理合规性。

使用方法

研究人员可利用该数据集对大型语言模型的代码编辑能力进行系统性评估。使用时应遵循零样本设置，针对不同任务类型采用相应的评估指标：代码调试、翻译与需求切换任务适用pass@1，而代码优化任务则采用Mean OptScore进行度量。通过加载数据集提供的多样化提示与场景，用户能够复现基准测试结果，或进一步扩展数据以评测新兴模型，从而推动代码智能领域的持续进步。

背景与挑战

背景概述

随着大型语言模型在代码生成领域的迅猛发展，代码编辑能力逐渐成为衡量模型实用性的关键指标。2024年，由学术界与工业界研究人员共同构建的CodeEditorBench应运而生，该数据集专注于评估大语言模型在代码调试、翻译、优化及需求转换等真实编辑任务中的表现。其核心研究问题在于突破传统基准仅关注代码生成的局限，通过整合多源编程挑战，覆盖多种语言与复杂度，为模型在软件开发实践中的实际能力提供严谨评估框架，有力推动了代码智能领域向更贴近工程实际的方向演进。

当前挑战

CodeEditorBench致力于解决代码编辑这一复杂领域问题的评估挑战，其核心在于如何精准衡量模型在动态、多变的真实开发场景中的适应性与准确性。在构建过程中，研究团队面临多重困难：一是需从多样化的编程问题来源中筛选并构建具有代表性和足够复杂度的编辑任务；二是确保数据集的版权合规性，严格遵循原始许可协议，避免法律风险；三是设计能够全面反映模型编辑能力的评估指标，如针对代码优化任务设计专用的平均优化分数，以超越简单的通过率衡量。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，CodeEditorBench 作为评估大型语言模型代码编辑能力的基准，其经典使用场景聚焦于系统化测试模型在调试、翻译、优化及需求切换等核心任务中的表现。该数据集通过整合多源编程挑战，覆盖不同语言与复杂度，模拟真实开发环境，为研究者提供了衡量模型编辑准确性与效率的标准化平台，推动了代码智能向实用化迈进。

解决学术问题

该数据集有效解决了当前代码生成研究中忽视编辑环节的局限，将学术焦点从单纯代码创作扩展至维护与迭代过程。它通过结构化评估框架，揭示了不同模型在各类编辑任务中的性能差异，特别是闭源与开源模型间的对比，为理解模型在复杂、动态编程场景中的泛化能力与鲁棒性提供了实证基础，促进了代码编辑理论的深化与评估方法的创新。

实际应用

在实际应用中，CodeEditorBench 为开发工具与集成环境的智能化升级提供了关键参考。企业可依据其评估结果，筛选或优化用于代码审查、自动修复、跨语言迁移及需求适配的AI助手，从而提升软件维护效率与质量。同时，它助力教育领域构建自适应编程辅导系统，通过模拟编辑任务训练学生的问题解决能力，缩短学习曲线。

数据集最近研究