JetBrains-Research/lca-library-based-code-generation

Name: JetBrains-Research/lca-library-based-code-generation
Creator: JetBrains-Research
Published: 2024-06-19 08:22:12
License: 暂无描述

Hugging Face2024-06-19 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/JetBrains-Research/lca-library-based-code-generation

下载链接

链接失效反馈

官方服务：

资源简介：

Long Code Arena数据集是一个用于基于库的代码生成任务的基准数据集。当前版本包含150个手动策划的指令，要求模型使用特定库生成Python代码。这些样本来自62个Python仓库，所有样本都基于相应库作者编写的参考示例程序。数据集的结构包括多个字段，如仓库名称、任务指令、参考程序等。所有仓库均发布在宽松许可证（如MIT、Apache-2.0、BSD-3-Clause和BSD-2-Clause）下。数据集可以通过Hugging Face的`load_dataset`方法加载，且所有数据均被视为测试集。

提供机构：

JetBrains-Research

原始信息汇总

数据集概述

数据集信息

名称: Library-based code generation
版本: 当前版本
描述: 包含150个手动筛选的指令，要求模型使用特定库生成Python代码。数据来源于62个Python仓库，所有样本基于各自库作者编写的参考示例程序。

数据集特征

repo_full_name: 字符串，仓库名和所有者的组合。
repo_name: 字符串，库仓库名。
repo_owner: 字符串，库仓库所有者。
instruction: 字符串，代码生成任务。
reference: 字符串，库作者编写的参考程序。
clean_reference: 字符串，去除注释的参考程序。
path_to_reference_file: 字符串，仓库中参考文件的路径（存档中移除以防止数据泄露）。
path_to_examples_folder: 字符串，仓库中示例文件夹的路径（存档中移除以防止数据泄露）。
n_unique_apis: 整数，参考程序中调用库特定API的次数。
unique_apis: 字符串序列，参考程序中调用库特定API的列表。
project_defined_elements: 字符串序列，仓库中所有类和方法名。
api_calls: 字符串序列，参考程序中所有API调用（包括引用其他库）。
internal_apis: 字符串序列，参考程序中所有API调用（包括出现在其他库中）。

数据集分割

test: 包含150个样本，总字节数为8652521。

数据集大小

下载大小: 4577126字节
数据集大小: 8652521字节

许可证

类型: Apache-2.0

语言

主要语言: 英语

搜集汇总

数据集介绍

构建方式

在软件工程与代码智能生成领域，高质量的数据集对于评估模型处理复杂库依赖任务的能力至关重要。JetBrains-Research/lca-library-based-code-generation 数据集通过精心设计的手工流程构建而成，其核心源于62个Python代码仓库，从中筛选出150条经过人工精心设计的指令。每条指令均要求模型基于特定库生成代码，且所有样本均以库作者编写的参考示例程序为蓝本。为确保数据来源的合法性与开放性，所选仓库均遵循MIT、Apache-2.0等宽松开源许可协议，并在必要时支持数据点的移除请求，体现了构建过程的严谨性与合规性。

特点

该数据集在代码生成基准测试中展现出鲜明的专业特性。其样本结构设计精细，不仅包含自然语言指令与参考代码，还提供了去除注释的纯净参考版本，以及丰富的元数据字段，如库特定API调用数量、唯一API列表、项目内定义的类与方法名称等。这些特征使得数据集能够深度刻画代码生成的上下文依赖与库使用模式，尤其适用于评估模型在长代码生成场景中对复杂库接口的理解与调用能力。数据集的样本均源自真实库的示例程序，确保了任务场景的实用性与代表性。

使用方法

使用该数据集时，研究人员可通过Hugging Face的datasets库便捷加载，指定数据集名称与测试分割即可获取全部150个样本。需要注意的是，数据集附带的压缩Git仓库目录无法直接通过datasets接口访问，用户需手动下载并解压，以便获取完整的仓库内容来构建模型所需的上下文信息。在实际应用中，可依据instruction字段提供生成任务，结合reference及相关API字段进行模型训练或性能评估。引用该数据集时，请遵循提供的学术文献引用格式，以确保研究的可复现性与学术规范性。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，基于库的代码生成任务旨在提升开发效率与代码质量。JetBrains研究团队于2024年构建了Long Code Arena基准中的库基代码生成数据集，聚焦于利用特定库生成Python代码的核心研究问题。该数据集精心筛选了62个Python仓库中的150条人工标注指令，其参考程序均源自库作者编写的示例，遵循MIT、Apache-2.0等宽松许可协议。这一工作为评估长上下文代码模型的性能提供了标准化测试平台，推动了智能编程助手与自动化代码生成技术的发展。

当前挑战

该数据集致力于解决库基代码生成中模型理解复杂API与长依赖关系的挑战，要求生成代码准确调用库特定接口并遵循项目结构。构建过程中的挑战包括从多样化仓库中手动筛选高质量示例，确保指令的清晰性与代表性，同时需处理代码注释移除、API调用提取及路径信息脱敏等技术细节，以避免数据泄露并维持数据集的可靠性与实用性。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，长代码生成任务正面临库函数调用复杂性的挑战。JetBrains-Research/lca-library-based-code-generation数据集为此提供了经典评估场景：它要求模型依据自然语言指令，生成正确调用特定库API的Python代码。该数据集精心构建了150个基于真实库示例的编程任务，覆盖62个开源仓库，每个样本均包含库作者编写的参考程序，从而为模型在长上下文环境下理解和运用第三方库的能力设立了标准化测试基准。

实际应用

在实际开发流程中，该数据集的应用场景聚焦于智能编程助手工具的效能提升。集成开发环境（IDE）可利用此类基准优化代码补全与生成功能，帮助开发者快速学习并应用陌生库。例如，当程序员需要调用某个图像处理库的复杂函数时，模型可参考数据集中类似任务的解决方案，生成符合库规范的代码片段。这不仅加速了开发迭代，也降低了因API误用导致的软件缺陷风险，促进了人机协作编程模式的成熟。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于长上下文代码模型的架构创新与评估框架拓展。相关研究借鉴其任务设计，开发了针对库API检索与组合的专用神经网络模块。部分工作进一步构建了多模态代码基准，将库文档、类型签名与示例代码共同作为模型输入。这些衍生研究共同推动了代码智能领域从短片段生成向复杂、依赖密集型编程任务的能力迁移，为构建真正理解软件生态的AI编程伙伴奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集