自动生成的代码任务基准

Name: 自动生成的代码任务基准
Creator: IBM以色列
Published: 2024-10-28 22:34:36
License: 暂无描述

arXiv2024-10-28 更新2024-10-30 收录

下载链接：

http://arxiv.org/abs/2410.21071v1

下载链接

链接失效反馈

官方服务：

资源简介：

自动生成的代码任务基准是由IBM以色列的研究团队开发的一个用于评估和验证代码相关任务解决方案的数据集。该数据集包含多种编程语言和代码任务的样本，如代码翻译、生成、完成、测试生成和摘要等。数据集的创建过程利用了图表示法和链式LLM代理，通过循环生成和验证代码相关工件。该数据集主要用于早期测试和验证LLM解决方案的有用性，旨在解决代码生成任务中的质量评估问题。

The automatically generated code task benchmark is a dataset developed by the research team at IBM Israel for evaluating and validating solutions to code-related tasks. This dataset includes samples across multiple programming languages and various code tasks, such as code translation, code generation, code completion, test generation, and code summarization. The dataset's development process leverages graph representation and chained LLM agents to iteratively generate and validate code-related artifacts. It is primarily used for early-stage testing and validation of the utility of LLM-based solutions, with the goal of addressing the quality evaluation issue in code generation tasks.

提供机构：

IBM以色列

创建时间：

2024-10-28

搜集汇总

数据集介绍

构建方式

该数据集的构建基于一种自动化的基准生成引擎，该引擎能够生成多种编程语言的代码任务，并作为LLM（大型语言模型）评估的输入。通过利用图表示法G，其中节点代表生成的代码工件，边表示可能的生成路径，如从自然语言需求生成Java程序。利用LLM代理链和G，生成代码相关工件，并通过G中的循环来制定对生成工件的期望，从而开发和测试可靠的LLM判断。

使用方法

该数据集可用于开发和验证LLM在代码相关任务中的解决方案，特别是用于评估生成的代码工件的有用性。用户可以通过数据集中的自动化基准生成引擎，生成特定编程语言的代码任务，并利用LLM代理链进行评估和验证。此外，数据集还支持通过图表示法G中的循环来制定和验证对生成工件的期望，从而确保解决方案的可靠性。

背景与挑战

背景概述

自动生成的代码任务基准数据集由Eitan Farchi、Shmulik Froimovich、Rami Katan和Orna Raz于2024年创建，旨在解决大规模语言模型（LLM）在代码相关任务中的质量评估问题。该数据集的核心研究问题是如何量化LLM生成的代码工件的有用性，并开发一种自动化的基准生成引擎，以生成多编程语言的代码任务，并利用LLM作为评估工具。该数据集的引入对代码生成和评估领域具有重要影响，为开发和验证LLM在代码任务中的应用提供了新的方法和工具。

当前挑战

自动生成的代码任务基准数据集面临的挑战包括：1) 量化代码生成工件的有用性，这是一个模糊且难以量化的概念；2) 构建过程中需要生成代表用户预期输入的数据，这需要大量的样本和可靠的预期结果；3) 需要开发代理人类判断的评估工具，以减少人工评估的劳动强度。此外，数据集的生成和评估过程中存在过拟合的风险，需要通过随机化和扰动来避免。

常用场景

经典使用场景

自动生成的代码任务基准数据集在代码生成和评估领域中具有经典应用场景。该数据集通过自动生成多编程语言的代码片段，用于评估大语言模型（LLM）在代码相关任务中的表现，如代码翻译、自然语言需求实现和代码摘要生成。通过这种方式，研究者能够量化LLM生成的代码在经过少量修改后是否能够被用户直接使用，从而评估其有用性。

解决学术问题

该数据集解决了在代码生成任务中评估LLM解决方案质量的学术难题。传统上，评估代码生成质量依赖于人工判断，这种方法既耗时又难以扩展。自动生成的代码任务基准通过提供大规模的自动生成代码和相应的预期结果，使得研究者能够开发和验证LLM作为判断者的能力，从而实现对代码生成解决方案的早期质量测试和持续评估。

实际应用

在实际应用中，自动生成的代码任务基准数据集被广泛用于开发和测试代码助手系统、代码翻译工具和代码摘要生成器等应用。通过使用该数据集，开发者可以在早期阶段发现和修正LLM生成代码中的问题，确保最终产品的质量和用户满意度。此外，该数据集还可用于训练和优化LLM，以提高其在多种编程语言和任务中的表现。

数据集最近研究