FudanSELab/CodeGen4Libs

Name: FudanSELab/CodeGen4Libs
Creator: FudanSELab
Published: 2023-10-05 02:24:07
License: 暂无描述

Hugging Face2023-10-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/FudanSELab/CodeGen4Libs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于ASE2023论文《CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation》中，主要用于库导向的代码生成。数据集包含训练集、验证集和测试集，分别有391811、5967和6002行数据。数据字段包括方法代码、文档、注释、方法名称、导入信息、库信息等。

提供机构：

FudanSELab

原始信息汇总

CodeGen4Libs 数据集概述

数据集描述

数据集名称: CodeGen4Libs 数据集
数据集用途: 用于 ASE2023 论文 "CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation"

数据集结构

数据加载

python from datasets import load_dataset dataset = load_dataset("FudanSELab/CodeGen4Libs")

数据集划分

训练集: 391811 条数据
验证集: 5967 条数据
测试集: 6002 条数据

数据字段

id: 每个元组的唯一标识符。
method: 每个元组的原始方法级代码。
clean_method: 每个任务的基准方法级代码。
doc: 每个元组的方法级代码文档。
comment: 每个元组的自然语言描述。
method_name: 方法的名称。
extra: 代码仓库的额外信息。
- license: 代码仓库的许可证。
- path: 代码仓库的路径。
- repo_name: 代码仓库的名称。
- size: 代码仓库的大小。
imports_info: 每个元组的导入语句。
libraries_info: 每个元组的库信息。
input_str: 模型输入的设计。
input_ids: 标记化输入的ID。
tokenized_input_str: 标记化输入。
input_token_length: 标记化输入的长度。
labels: 标记化输出的ID。
tokenized_labels_str: 标记化输出。
labels_token_length: 标记化输出的长度。
retrieved_imports_info: 每个元组的检索导入语句。
retrieved_code: 每个元组的检索方法级代码。
imports: 每个导入语句的导入包。
cluster_imports_info: 代码的集群导入信息。
libraries: 代码使用的库。
attention_mask: 输入的注意力掩码。

数据集大小

数据集大小: 100K<n<1M

引用信息

@inproceedings{ase2023codegen4libs, author = {Mingwei Liu and Tianyong Yang and Yiling Lou and Xueying Du and Ying Wang and Xin Peng}, title = {{CodeGen4Libs}: A Two-stage Approach for Library-oriented Code Generation}, booktitle = {38th {IEEE/ACM} International Conference on Automated Software Engineering, {ASE} 2023, Kirchberg, Luxembourg, September 11-15, 2023}, pages = {0--0}, publisher = {{IEEE}}, year = {2023}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集