five

FudanSELab/CodeGen4Libs

收藏
Hugging Face2023-10-05 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FudanSELab/CodeGen4Libs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于ASE2023论文《CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation》中,主要用于库导向的代码生成。数据集包含训练集、验证集和测试集,分别有391811、5967和6002行数据。数据字段包括方法代码、文档、注释、方法名称、导入信息、库信息等。
提供机构:
FudanSELab
原始信息汇总

CodeGen4Libs 数据集概述

数据集描述

数据集结构

数据加载

python from datasets import load_dataset dataset = load_dataset("FudanSELab/CodeGen4Libs")

数据集划分

  • 训练集: 391811 条数据
  • 验证集: 5967 条数据
  • 测试集: 6002 条数据

数据字段

  • id: 每个元组的唯一标识符。
  • method: 每个元组的原始方法级代码。
  • clean_method: 每个任务的基准方法级代码。
  • doc: 每个元组的方法级代码文档。
  • comment: 每个元组的自然语言描述。
  • method_name: 方法的名称。
  • extra: 代码仓库的额外信息。
    • license: 代码仓库的许可证。
    • path: 代码仓库的路径。
    • repo_name: 代码仓库的名称。
    • size: 代码仓库的大小。
  • imports_info: 每个元组的导入语句。
  • libraries_info: 每个元组的库信息。
  • input_str: 模型输入的设计。
  • input_ids: 标记化输入的ID。
  • tokenized_input_str: 标记化输入。
  • input_token_length: 标记化输入的长度。
  • labels: 标记化输出的ID。
  • tokenized_labels_str: 标记化输出。
  • labels_token_length: 标记化输出的长度。
  • retrieved_imports_info: 每个元组的检索导入语句。
  • retrieved_code: 每个元组的检索方法级代码。
  • imports: 每个导入语句的导入包。
  • cluster_imports_info: 代码的集群导入信息。
  • libraries: 代码使用的库。
  • attention_mask: 输入的注意力掩码。

数据集大小

  • 数据集大小: 100K<n<1M

引用信息

@inproceedings{ase2023codegen4libs, author = {Mingwei Liu and Tianyong Yang and Yiling Lou and Xueying Du and Ying Wang and Xin Peng}, title = {{CodeGen4Libs}: A Two-stage Approach for Library-oriented Code Generation}, booktitle = {38th {IEEE/ACM} International Conference on Automated Software Engineering, {ASE} 2023, Kirchberg, Luxembourg, September 11-15, 2023}, pages = {0--0}, publisher = {{IEEE}}, year = {2023}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作