CodePromptEval

github2024-12-16 更新2025-01-03 收录

下载链接：

https://github.com/icetlab/CodePromptEval

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于CoderEval Python数据集的函数，包含7,072个提示，基于221个代码生成任务的提示，每个提示实现了32种独特的提示技术组合。涵盖的提示技术包括Few-shot学习、Persona、Chain-of-Thought、函数签名（上下文）和包列表（上下文）。

This dataset is constructed based on the functions from the CoderEval Python dataset, and includes 7,072 prompts derived from 221 code generation tasks, where each prompt integrates 32 distinct combinations of prompt engineering techniques. The covered prompt techniques include Few-shot learning, Persona, Chain-of-Thought, function signature (context), and package list (context).

创建时间：

2024-12-12

原始信息汇总

CodePromptEval 数据集概述

数据集简介

CodePromptEval 是一个基于 CoderEval Python 数据集函数的数据集，用于评估提示编程对代码生成的影响。该数据集包含 7,072 个提示，基于 221 个代码生成任务的提示，每个提示实现了 32 种独特的提示技术组合。涵盖的提示技术包括 Few-shot 学习、Persona、Chain-of-Thought、函数签名（上下文）和包列表（上下文）。

数据集内容

提示数量: 7,072 个
基础提示数量: 221 个
提示技术组合: 32 种
涵盖的提示技术: Few-shot 学习、Persona、Chain-of-Thought、函数签名（上下文）、包列表（上下文）

研究复现包

数据集提供了研究《The Impact of Prompt Programming on Function-Level Code Generation》的复现包，内容包括：

原始 CoderEval 数据集
添加到 CoderEval 的额外测试和 Few-shot 示例
用于构建和评估 CodePromptEval 的脚本
在五个大型语言模型（GPT-3.5、GPT-4o、Llama3-70B、Llama2-7B 和 Mistral）上生成的函数输出和评估结果

引用信息

bibtex @software{Khojah_CodePromptEval_2024, author = {Khojah, Ranim and de Oliveira Neto, Francisco Gomes and Mohamad, Mazen and Leitner, Philipp}, month = dec, title = {{CodePromptEval}}, url = {https://github.com/icetlab/CodePromptEval}, version = {1.0.0}, year = {2024} }

联系方式

如有任何问题，请联系 khojah{at}chalmers.se。

搜集汇总

数据集介绍

构建方式

CodePromptEval数据集的构建基于CoderEval Python数据集中的函数，通过扩展和组合多种提示技术，生成了7,072个提示。这些提示涵盖了Few-shot learning、Persona、Chain-of-Thought、Function Signature和List of Packages等五种提示技术，每种技术通过32种独特的组合方式应用于221个基础提示，从而形成了一个多样化的代码生成任务数据集。

特点

CodePromptEval数据集的特点在于其广泛覆盖了多种提示技术及其组合，能够全面评估提示编程对代码生成任务的影响。数据集不仅包含了丰富的提示组合，还提供了基于五个大型语言模型（GPT-3.5、GPT-4o、Llama3-70B、Llama2-7B和Mistral）的生成函数和评估结果，为研究者提供了详实的实验数据。

使用方法

使用CodePromptEval数据集时，研究者可以通过安装依赖项并运行提供的脚本来复现实验结果。数据集包含了原始CoderEval数据、额外的测试用例和Few-shot示例，以及用于构建和评估CodePromptEval的脚本。通过这些工具，用户可以轻松地在不同语言模型上进行代码生成任务的实验，并分析提示技术对生成结果的影响。

背景与挑战

背景概述

CodePromptEval数据集由Khojah等人于2024年创建，旨在评估提示编程对代码生成任务的影响。该数据集基于CoderEval Python数据集，包含7,072个提示，涵盖了221个代码生成任务，并实现了32种独特的提示技术组合。主要研究人员包括Ranim Khojah、Francisco Gomes de Oliveira Neto、Mazen Mohamad和Philipp Leitner。该数据集的核心研究问题在于探讨不同提示技术（如Few-shot学习、Persona、Chain-of-Thought、函数签名和包列表）对代码生成效果的影响。CodePromptEval的发布为代码生成领域的研究提供了新的视角，特别是在大语言模型（LLMs）的应用中，推动了提示编程技术的深入探索。

当前挑战

CodePromptEval数据集在构建和应用过程中面临多重挑战。首先，如何设计有效的提示技术组合以全面评估其对代码生成的影响，是一个复杂的问题。提示技术的多样性和组合方式需要精心设计，以确保实验结果的科学性和可重复性。其次，数据集的构建依赖于CoderEval数据集，如何在此基础上扩展和优化提示内容，同时保持数据的一致性和质量，是另一个关键挑战。此外，评估不同大语言模型在代码生成任务中的表现，需要处理大量的生成代码和评估结果，这对计算资源和数据处理能力提出了较高要求。这些挑战共同构成了CodePromptEval数据集在研究和应用中的核心难点。

常用场景

经典使用场景

CodePromptEval数据集在代码生成领域的研究中扮演了重要角色，特别是在评估不同提示编程技术对代码生成效果的影响方面。该数据集基于CoderEval Python数据集，包含了7,072个提示，涵盖了Few-shot学习、Persona、Chain-of-Thought等多种提示技术。研究人员可以利用该数据集进行大规模实验，分析不同提示技术在代码生成任务中的表现，从而优化代码生成模型的设计。

衍生相关工作

CodePromptEval数据集衍生了一系列关于提示编程技术的研究工作。例如，基于该数据集的研究揭示了Few-shot学习和Chain-of-Thought提示技术在代码生成中的显著效果。此外，该数据集还推动了多模态提示技术的研究，结合函数签名和包列表等上下文信息，进一步提升了代码生成的准确性和效率。这些研究为代码生成领域的技术创新提供了新的思路和方法。

数据集最近研究