AixBench

Name: AixBench
Creator: aiXcoder
Published: 2022-07-21 10:55:15
License: 暂无描述

arXiv2022-07-21 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2206.13179v2

下载链接

链接失效反馈

官方服务：

资源简介：

AixBench是由aiXcoder创建的一个代码生成基准数据集，主要用于评估方法级代码生成任务。该数据集分为两个部分：自动化测试数据集包含175个样本，用于自动评估代码正确性；手动评估数据集包含161个样本，用于评估代码的整体质量。数据集内容涵盖了Java代码及其英文和中文的自然语言描述，旨在通过详细的测试案例确保代码功能的正确实现。创建过程中，数据集从开源的‘方法注释-方法实现’对中精选而出，确保每个样本的功能独立性和描述的清晰性。AixBench的应用领域主要集中在代码生成模型的评估，特别是在自动化和手动评估代码质量方面，以解决实际软件开发中的代码生成问题。

AixBench is a code generation benchmark dataset developed by aiXcoder, primarily used for evaluating method-level code generation tasks. The dataset is divided into two subsets: the automated test dataset includes 175 samples for automatic validation of code correctness, while the manual evaluation dataset contains 161 samples for assessing the overall quality of generated code. The dataset covers Java code paired with both English and Chinese natural language descriptions, and is designed to guarantee the correct implementation of code functions via detailed test cases. During its curation, the dataset was meticulously selected from open-source 'method comment-method implementation' pairs, ensuring the functional independence of each sample and the clarity of its accompanying descriptions. The main application scope of AixBench lies in the evaluation of code generation models, especially in assessing code quality through both automated and manual approaches, to address code generation challenges in real-world software development scenarios.

提供机构：

aiXcoder

创建时间：

2022-06-27

搜集汇总

数据集介绍

构建方式

在代码生成领域，构建高质量的评估数据集对于衡量模型性能至关重要。AixBench的构建过程始于从开源项目中精心筛选“方法注释-方法实现”对，确保所选样本具备功能独立性且描述清晰。通过人工补充与修正，数据集中的自然语言描述被优化以包含实现功能所必需的具体信息，同时保留原始注释中的语法变异以测试模型的抗干扰能力。最终形成了包含175个自动化测试样本和161个人工评估样本的双重结构，专注于Java语言并涵盖中英文描述。

特点

AixBench的显著特点在于其双重评估框架的设计。自动化测试数据集为每个样本配备了手工编写的单元测试，能够客观验证生成代码的功能正确性；而自然语言任务描述数据集则更贴近实际开发场景，包含一定程度的模糊性以模拟真实需求。该数据集突破了现有基准的局限，不仅支持Java语言评估，还融入了非英语提示，从而更全面地反映模型在多样化语言环境下的适应能力。

使用方法

使用AixBench时，研究者可根据评估目标灵活选择数据集。若侧重于代码正确性的自动化评估，可运用自动化测试数据集，通过执行预置的单元测试来量化模型的通过率。对于代码整体质量的综合评判，则需借助自然语言任务描述数据集，依据预设的多维度标准进行人工评估，涵盖正确性、代码质量和可维护性等方面。这种分层评估机制为代码生成模型的性能提供了系统且可靠的衡量基准。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，代码生成技术正逐步成为提升开发效率的关键驱动力。AixBench数据集由aiXcoder团队与北京大学研究人员于2022年7月联合发布，旨在构建一个专注于方法级代码生成任务的基准评估工具。该数据集的核心研究问题在于如何精准评估模型根据自然语言描述生成功能正确、质量优良的Java代码的能力。通过提供自动化测试与人工评估双重视角，AixBench不仅填补了现有基准在Java语言支持与真实开发场景覆盖方面的空白，还引入了包含中英文混合描述的多语言提示，显著推动了代码生成模型在实用性与可访问性方面的研究进展。

当前挑战

AixBench数据集所针对的代码生成领域，长期面临评估指标与真实正确性脱节的挑战。传统指标如精确匹配或BLEU难以捕捉程序语义的等效性，因为变量命名、指令顺序等表面差异并不影响功能正确性。为此，该数据集通过精心设计的单元测试验证生成代码，但构建过程中仍需克服多重困难：一是从开源项目中筛选兼具功能独立性与现实代表性的方法注释，需平衡业务逻辑依赖与评估可行性；二是处理自然语言描述中固有的模糊性与语法扰动，以测试模型的抗干扰能力；三是为自动化评估补充必要细节，同时保留真实开发中的合理歧义，确保基准既严谨又贴近实际应用场景。

常用场景

经典使用场景

在代码生成领域，AixBench作为方法级代码生成的基准数据集，其经典使用场景聚焦于评估模型从自然语言描述生成Java代码的能力。该数据集通过自动化测试集和自然语言任务描述集，为研究者提供了标准化的评估框架，使得模型能够在功能独立且描述清晰的编程任务上进行性能测试。这种设计不仅模拟了真实开发环境中从需求到代码的转换过程，还通过单元测试验证生成代码的正确性，从而成为衡量代码生成模型核心能力的重要工具。

衍生相关工作

AixBench的推出促进了代码生成领域多项相关工作的衍生。例如，研究者基于其评估框架扩展了多语言代码生成基准，或将其测试用例机制迁移至其他编程语言的数据集构建中。同时，数据集中对代码质量和可维护性的手动评估标准，启发了后续工作对生成代码综合属性的量化研究。与HumanEval、APPS等现有基准的对比分析，也推动了领域内对评估范式的反思与改进，促使更多研究关注真实开发场景下的代码生成挑战。

数据集最近研究