five

LJ0815/EvoCodeBench

收藏
Hugging Face2024-06-24 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/LJ0815/EvoCodeBench
下载链接
链接失效反馈
官方服务:
资源简介:
EvoCodeBench是一个与真实世界代码库对齐的进化代码生成基准。它包含来自25个真实世界代码库的275个样本,这些样本在2023年10月至2024年2月期间创建。数据集提供了全面的注释(如需求、代码、依赖项和仓库)和鲁棒的度量标准(如Pass@k和Recall@k)。此外,EvoCodeBench支持仓库级别的代码生成,并评估了10种流行的LLM模型。

EvoCodeBench是一个与真实世界代码库对齐的进化代码生成基准。它包含来自25个真实世界代码库的275个样本,这些样本在2023年10月至2024年2月期间创建。数据集提供了全面的注释(如需求、代码、依赖项和仓库)和鲁棒的度量标准(如Pass@k和Recall@k)。此外,EvoCodeBench支持仓库级别的代码生成,并评估了10种流行的LLM模型。
提供机构:
LJ0815
原始信息汇总

EvoCodeBench 数据集概述

数据集描述

EvoCodeBench 是一个与真实世界代码仓库对齐的进化代码生成基准。该数据集的详细信息可在论文 "EvoCodeBench: An Evolving Code Generation Benchmark Aligned with Real-world Code Repositories" 中找到。

数据集特点

  • 多维度对齐: 与真实世界仓库在多个维度上对齐,包括代码分布和依赖分布。
  • 全面标注: 包含需求、代码、依赖和仓库等全面标注,并使用 Pass@k 和 Recall@k 等稳健的评估指标。
  • 动态更新: 作为动态更新的基准,以避免数据泄露。首个版本 EvoCodeBench-2403 已发布,包含自 2023年10月至2024年2月从25个真实世界仓库中提取的275个样本。

应用场景

基于 EvoCodeBench,提出了仓库级别的代码生成,并评估了包括 gpt-4, gpt-3.5, DeepSeek Coder, StarCoder 2, CodeLLaMa, Gemma, 和 Qwen 1.5 在内的10种流行的大型语言模型(LLMs)。所有提示和模型的完成情况已公开,供社区进一步分析。

搜集汇总
数据集介绍
main_image_url
构建方式
在代码生成领域,基准测试的构建需紧密贴合实际开发场景。EvoCodeBench的构建过程以真实代码仓库为蓝本,从2023年10月至2024年2月期间创建的25个实际仓库中精心筛选出275个样本。每个样本均包含完整的需求描述、代码实现、依赖关系及仓库元数据,确保数据在代码分布与依赖分布等多个维度与现实世界保持高度一致。这种基于真实演化的构建策略,有效避免了传统基准测试中常见的数据泄露问题,为评估模型在复杂环境下的代码生成能力提供了坚实基础。
特点
该数据集的核心特点在于其与现实世界的深度对齐及动态演化特性。相较于传统基准如HumanEval,EvoCodeBench不仅涵盖了代码与依赖的分布匹配,还提供了全面的注释体系,包括需求、代码、依赖及仓库信息。其采用的Pass@k与Recall@k评估指标更为鲁棒,能够多维度衡量模型性能。尤为突出的是,数据集被设计为持续演进的基准,首个版本EvoCodeBench-2403已发布,这种动态更新机制确保了评估环境始终贴近最新的开发实践,为长期研究提供了可持续的验证平台。
使用方法
使用EvoCodeBench进行代码生成评估时,研究者可依托其仓库级代码生成任务框架展开实验。数据集已对包括GPT-4、GPT-3.5、DeepSeek Coder、StarCoder 2在内的十种主流大语言模型进行了系统评估,并公开了所有提示词与模型生成结果,便于社区进行深入分析。用户可通过提供的代码库获取完整数据与评估脚本,基于既定指标复现或扩展实验。这种开放的设计鼓励跨模型比较与方法创新,推动代码生成技术向更实用、更可靠的方向发展。
背景与挑战
背景概述
在人工智能与软件工程交叉领域,代码生成技术正经历从孤立片段到复杂系统集成的深刻变革。EvoCodeBench由SekeTeam等研究团队于2024年创建,其核心研究问题聚焦于如何构建一个与真实世界代码仓库多维对齐的进化式基准测试。该数据集通过采集2023年10月至2024年2月期间25个真实仓库的275个样本,旨在弥合传统基准与工业级代码生态之间的鸿沟,推动大语言模型在仓库级代码生成任务上的能力评估与迭代发展。
当前挑战
EvoCodeBench致力于应对仓库级代码生成的系统性挑战,包括代码与依赖关系的分布对齐、跨模块上下文理解以及动态演化场景下的功能一致性验证。构建过程中,研究团队需克服真实仓库数据的多维度采样难题,确保代码分布、依赖图谱与时间演化的代表性;同时,设计避免数据泄露的进化机制与兼顾准确率与召回率的评估指标,亦构成了数据集工程实现的核心难点。
常用场景
经典使用场景
在软件工程与人工智能交叉领域,代码生成任务正逐步从孤立片段转向复杂系统层面。EvoCodeBench作为进化式代码生成基准,其经典使用场景聚焦于评估大型语言模型在真实仓库环境下的代码生成能力。研究者通过该基准,能够模拟实际开发中代码的演化过程,测试模型在考虑代码分布、依赖关系及仓库结构等多维因素时的表现,从而推动代码生成技术向更贴近工程实践的方向发展。
解决学术问题
传统代码生成基准往往局限于独立代码片段,难以反映真实软件开发中的复杂性与动态性。EvoCodeBench通过对齐真实代码仓库的分布特征,解决了评估体系与工程实践脱节的问题。它提供了全面的注释与鲁棒性指标,如Pass@k与Recall@k,使研究者能够量化模型在演化场景下的性能,为代码生成领域的评估方法学带来了重要革新,促进了学术研究向实际应用的靠拢。
衍生相关工作
围绕EvoCodeBench,学术界已衍生出一系列探索仓库级代码生成的经典研究。例如,基于该基准对GPT-4、DeepSeek Coder、CodeLLaMA等主流模型进行的系统性评估,揭示了模型在复杂依赖环境中的性能差异。这些工作不仅拓展了代码生成的研究边界,还催生了针对演化性、可维护性等维度的新评估框架,为后续研究提供了丰富的实验数据与方法启示。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作