five

severo/CodeGen4Libs

收藏
Hugging Face2024-02-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/severo/CodeGen4Libs
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于ASE2023论文《CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation》。数据集包含训练集、验证集和测试集,分别有391811、5967和6002行数据。数据字段包括id、method、clean_method、doc、comment、method_name、extra、imports_info、libraries_info、input_str、input_ids、tokenized_input_str、input_token_length、labels、tokenized_labels_str、labels_token_length、retrieved_imports_info、retrieved_code、imports、cluster_imports_info、libraries和attention_mask。数据集的结构和字段描述清晰,但未提及数据集的语言信息。

该数据集用于ASE2023论文《CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation》。数据集包含训练集、验证集和测试集,分别有391811、5967和6002行数据。数据字段包括id、method、clean_method、doc、comment、method_name、extra、imports_info、libraries_info、input_str、input_ids、tokenized_input_str、input_token_length、labels、tokenized_labels_str、labels_token_length、retrieved_imports_info、retrieved_code、imports、cluster_imports_info、libraries和attention_mask。数据集的结构和字段描述清晰,但未提及数据集的语言信息。
提供机构:
severo
原始信息汇总

数据集卡片 for FudanSELab CodeGen4Libs 数据集

数据集描述

数据集概述

该数据集用于ASE2023论文《CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation》。

语言

[需要更多信息]

数据集结构

python from datasets import load_dataset dataset = load_dataset("FudanSELab/CodeGen4Libs")

DatasetDict({ train: Dataset({ features: [id, method, clean_method, doc, comment, method_name, extra, imports_info, libraries_info, input_str, input_ids, tokenized_input_str, input_token_length, labels, tokenized_labels_str, labels_token_length, retrieved_imports_info, retrieved_code, imports, cluster_imports_info, libraries, attention_mask],
num_rows: 391811 }) validation: Dataset({ features: [id, method, clean_method, doc, comment, method_name, extra, imports_info, libraries_info, input_str, input_ids, tokenized_input_str, input_token_length, labels, tokenized_labels_str, labels_token_length, retrieved_imports_info, retrieved_code, imports, cluster_imports_info, libraries, attention_mask],
num_rows: 5967 }) test: Dataset({ features: [id, method, clean_method, doc, comment, method_name, extra, imports_info, libraries_info, input_str, input_ids, tokenized_input_str, input_token_length, labels, tokenized_labels_str, labels_token_length, retrieved_imports_info, retrieved_code, imports, cluster_imports_info, libraries, attention_mask],
num_rows: 6002 }) })

数据字段

每个元组的具体数据字段如下:

  • id: 每个元组的唯一标识符。

  • method: 每个元组的原始方法级代码。

  • clean_method: 每个任务的基准方法级代码。

  • doc: 每个元组的方法级代码文档。

  • comment: 每个元组的自然语言描述。

  • method_name: 方法的名称。

  • extra: 方法级代码所属代码仓库的额外信息。

    • license: 代码仓库的许可证。
    • path: 代码仓库的路径。
    • repo_name: 代码仓库的名称。
    • size: 代码仓库的大小。
  • imports_info: 每个元组的导入语句。

  • libraries_info: 每个元组的库信息。

  • input_str: 模型输入的设计。

  • input_ids: 标记化输入的ID。

  • tokenized_input_str: 标记化输入。

  • input_token_length: 标记化输入的长度。

  • labels: 标记化输出的ID。

  • tokenized_labels_str: 标记化输出。

  • labels_token_length: 标记化输出的长度。

  • retrieved_imports_info: 每个元组的检索导入语句。

  • retrieved_code: 每个元组的检索方法级代码。

  • imports: 每个导入语句的导入包。

  • cluster_imports_info: 代码的集群导入信息。

  • libraries: 代码使用的库。

  • attention_mask: 输入的注意力掩码。

数据分割

数据集被分为训练集、验证集和测试集,分别包含391811、5967和6002条数据。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作