severo/CodeGen4Libs

Name: severo/CodeGen4Libs
Creator: severo
Published: 2024-02-26 14:30:04
License: 暂无描述

Hugging Face2024-02-26 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/severo/CodeGen4Libs

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于ASE2023论文《CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation》。数据集包含训练集、验证集和测试集，分别有391811、5967和6002行数据。数据字段包括id、method、clean_method、doc、comment、method_name、extra、imports_info、libraries_info、input_str、input_ids、tokenized_input_str、input_token_length、labels、tokenized_labels_str、labels_token_length、retrieved_imports_info、retrieved_code、imports、cluster_imports_info、libraries和attention_mask。数据集的结构和字段描述清晰，但未提及数据集的语言信息。

提供机构：

severo

原始信息汇总

数据集卡片 for FudanSELab CodeGen4Libs 数据集

数据集描述

数据集概述

该数据集用于ASE2023论文《CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation》。

语言

[需要更多信息]

数据集结构

python from datasets import load_dataset dataset = load_dataset("FudanSELab/CodeGen4Libs")

DatasetDict({ train: Dataset({ features: [id, method, clean_method, doc, comment, method_name, extra, imports_info, libraries_info, input_str, input_ids, tokenized_input_str, input_token_length, labels, tokenized_labels_str, labels_token_length, retrieved_imports_info, retrieved_code, imports, cluster_imports_info, libraries, attention_mask],
num_rows: 391811 }) validation: Dataset({ features: [id, method, clean_method, doc, comment, method_name, extra, imports_info, libraries_info, input_str, input_ids, tokenized_input_str, input_token_length, labels, tokenized_labels_str, labels_token_length, retrieved_imports_info, retrieved_code, imports, cluster_imports_info, libraries, attention_mask],
num_rows: 5967 }) test: Dataset({ features: [id, method, clean_method, doc, comment, method_name, extra, imports_info, libraries_info, input_str, input_ids, tokenized_input_str, input_token_length, labels, tokenized_labels_str, labels_token_length, retrieved_imports_info, retrieved_code, imports, cluster_imports_info, libraries, attention_mask],
num_rows: 6002 }) })

数据字段

每个元组的具体数据字段如下：

id: 每个元组的唯一标识符。
method: 每个元组的原始方法级代码。
clean_method: 每个任务的基准方法级代码。
doc: 每个元组的方法级代码文档。
comment: 每个元组的自然语言描述。
method_name: 方法的名称。
extra: 方法级代码所属代码仓库的额外信息。
- license: 代码仓库的许可证。
- path: 代码仓库的路径。
- repo_name: 代码仓库的名称。
- size: 代码仓库的大小。
imports_info: 每个元组的导入语句。
libraries_info: 每个元组的库信息。
input_str: 模型输入的设计。
input_ids: 标记化输入的ID。
tokenized_input_str: 标记化输入。
input_token_length: 标记化输入的长度。
labels: 标记化输出的ID。
tokenized_labels_str: 标记化输出。
labels_token_length: 标记化输出的长度。
retrieved_imports_info: 每个元组的检索导入语句。
retrieved_code: 每个元组的检索方法级代码。
imports: 每个导入语句的导入包。
cluster_imports_info: 代码的集群导入信息。
libraries: 代码使用的库。
attention_mask: 输入的注意力掩码。

数据分割

数据集被分为训练集、验证集和测试集，分别包含391811、5967和6002条数据。

5,000+

优质数据集

54 个

任务类型

进入经典数据集