FudanSELab/CodeGen4Libs
收藏Hugging Face2023-10-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FudanSELab/CodeGen4Libs
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于ASE2023论文《CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation》中,主要用于库导向的代码生成。数据集包含训练集、验证集和测试集,分别有391811、5967和6002行数据。数据字段包括方法代码、文档、注释、方法名称、导入信息、库信息等。
提供机构:
FudanSELab
原始信息汇总
CodeGen4Libs 数据集概述
数据集描述
- 数据集名称: CodeGen4Libs 数据集
- 数据集用途: 用于 ASE2023 论文 "CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation"
数据集结构
数据加载
python from datasets import load_dataset dataset = load_dataset("FudanSELab/CodeGen4Libs")
数据集划分
- 训练集: 391811 条数据
- 验证集: 5967 条数据
- 测试集: 6002 条数据
数据字段
- id: 每个元组的唯一标识符。
- method: 每个元组的原始方法级代码。
- clean_method: 每个任务的基准方法级代码。
- doc: 每个元组的方法级代码文档。
- comment: 每个元组的自然语言描述。
- method_name: 方法的名称。
- extra: 代码仓库的额外信息。
- license: 代码仓库的许可证。
- path: 代码仓库的路径。
- repo_name: 代码仓库的名称。
- size: 代码仓库的大小。
- imports_info: 每个元组的导入语句。
- libraries_info: 每个元组的库信息。
- input_str: 模型输入的设计。
- input_ids: 标记化输入的ID。
- tokenized_input_str: 标记化输入。
- input_token_length: 标记化输入的长度。
- labels: 标记化输出的ID。
- tokenized_labels_str: 标记化输出。
- labels_token_length: 标记化输出的长度。
- retrieved_imports_info: 每个元组的检索导入语句。
- retrieved_code: 每个元组的检索方法级代码。
- imports: 每个导入语句的导入包。
- cluster_imports_info: 代码的集群导入信息。
- libraries: 代码使用的库。
- attention_mask: 输入的注意力掩码。
数据集大小
- 数据集大小: 100K<n<1M
引用信息
@inproceedings{ase2023codegen4libs, author = {Mingwei Liu and Tianyong Yang and Yiling Lou and Xueying Du and Ying Wang and Xin Peng}, title = {{CodeGen4Libs}: A Two-stage Approach for Library-oriented Code Generation}, booktitle = {38th {IEEE/ACM} International Conference on Automated Software Engineering, {ASE} 2023, Kirchberg, Luxembourg, September 11-15, 2023}, pages = {0--0}, publisher = {{IEEE}}, year = {2023}, }



