EvoCodeBench|代码生成数据集|基准测试数据集

arXiv2024-10-30 更新2024-06-21 收录

代码生成

基准测试

下载链接：

https://github.com/seketeam/EvoCodeBench

下载链接

链接失效反馈

资源简介：

EvoCodeBench是由北京大学高可信软件技术教育部重点实验室创建的一个动态更新的代码生成基准数据集，旨在评估大型语言模型在特定编程领域的表现。该数据集包含275个样本，来源于25个真实世界的开源代码库，涵盖10个流行的编程领域。数据集通过自动化的收集和标注流程构建，确保了数据的质量和多样性。EvoCodeBench的应用领域广泛，旨在帮助开发者在特定领域选择更优的大型语言模型，并发现现有模型的不足之处。

提供机构：

高可信软件技术教育部重点实验室（北京大学）

创建时间：

2024-10-30

AI搜集汇总

数据集介绍

构建方式

EvoCodeBench的构建过程严格遵循与真实世界代码库的多维度对齐，包括代码分布和依赖分布。数据集通过自动化的流水线从最新的开源代码库中收集，确保数据的新鲜度和多样性。具体步骤包括：从GitHub上筛选高质量的开源Python项目，提取函数及其签名和函数体，构建测试用例，进行去重处理，并利用大型语言模型生成自然语言需求描述。最终，从这些输出中精选样本构建EvoCodeBench，确保其与500个真实世界代码库的代码和依赖分布一致。

特点

EvoCodeBench的主要特点在于其与真实世界代码库的高度对齐，涵盖了独立代码和非独立代码，确保了代码类型的真实比例。此外，数据集提供了全面的注释，包括自然语言需求、原始代码库、参考代码和依赖关系，以及强大的评估指标如Pass@k和Recall@k。EvoCodeBench是一个动态更新的基准，旨在避免数据泄露，确保评估的公正性和准确性。

使用方法

EvoCodeBench主要用于评估大型语言模型在代码生成任务中的表现，特别是在真实世界代码库环境下的生成能力。使用者可以通过提供的自然语言需求和代码库上下文，生成代码并进行功能正确性和依赖召回率的评估。数据集支持多种实验设置，如无上下文生成、本地文件续写和填充等，以全面评估模型在不同情境下的表现。此外，EvoCodeBench还提供了详细的注释和评估指标，便于研究者和开发者进行深入分析和模型优化。

背景与挑战

背景概述

EvoCodeBench，由北京大学计算机科学学院的Jia Li、Ge Li、Xuanming Zhang、Yihong Dong和Zhi Jin等人于2024年提出，是一个针对代码生成任务的演化基准数据集。该数据集的核心研究问题是如何在大语言模型（LLMs）的代码生成任务中进行有效评估。EvoCodeBench通过与真实世界代码库的多维度对齐，如代码分布和依赖分布，解决了现有基准数据集与实际代码库对齐不足的问题。其发布的首个版本EvoCodeBench-2403包含了从25个真实世界代码库中提取的275个样本，对相关领域的影响力在于提供了一个更为真实和全面的评估平台，推动了LLMs在实际开发中的应用。

当前挑战

EvoCodeBench在构建过程中面临多项挑战。首先，如何从真实世界代码库中提取具有代表性的样本，确保代码分布和依赖分布的真实性，是一个复杂的问题。其次，数据集需要提供全面的注释，包括自然语言需求、参考代码和依赖关系，这增加了数据集构建的难度。此外，为了避免数据泄露，EvoCodeBench需要定期更新，这要求构建一个自动化的更新管道。最后，评估LLMs在真实世界代码库中的表现时，如何设计有效的评估指标（如Pass@k和Recall@k）也是一个重要的挑战。

常用场景

经典使用场景

EvoCodeBench 数据集的经典使用场景在于评估大型语言模型（LLMs）在代码生成任务中的表现。通过与真实世界代码库的多维度对齐，如代码分布和依赖分布，EvoCodeBench 提供了一个全面的评估框架。研究者可以利用该数据集对 LLMs 进行严格的测试，以评估其在实际开发环境中的代码生成能力，包括功能正确性和依赖关系的准确性。

衍生相关工作

EvoCodeBench 数据集的发布催生了一系列相关研究工作。例如，研究者们基于该数据集提出了新的代码生成模型和评估方法，进一步提升了 LLMs 在代码生成任务中的表现。此外，EvoCodeBench 还激发了对代码生成任务中上下文利用和依赖关系处理的研究，推动了代码生成领域的发展。这些衍生工作不仅丰富了代码生成领域的研究内容，也为实际应用提供了更多可能性。

数据集最近研究

相关研究论文

1
EvoCodeBench: An Evolving Code Generation Benchmark Aligned with Real-World Code Repositories北京大学计算机科学学院 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

TEDS

TEDS（Tencent Chinese Corpus）是由腾讯公司发布的中文文本数据集，主要用于自然语言处理和文本分类任务。该数据集包含了大量的中文文本数据，涵盖了新闻、社交媒体、论坛等多种来源，适用于训练和评估中文语言模型和文本分类模型。

ai.tencent.com 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建，是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像，规模等价于超过2000万张不重叠的三波段图像，远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像，包括来自地球观测一号（EO-1）Hyperion和高分五号（GF-5B）两种传感器的图像，光谱范围从可见光到短波及中波红外，具有从紫外到长波红外的330个光谱波段，空间分辨率为30米。每幅图像经过精心处理，去除了无效波段和水汽吸收波段，保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究，还能够用于开发和测试各种高光谱图像处理方法，比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录