severo/CodeGen4Libs
收藏数据集卡片 for FudanSELab CodeGen4Libs 数据集
数据集描述
数据集概述
该数据集用于ASE2023论文《CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation》。
语言
[需要更多信息]
数据集结构
python from datasets import load_dataset dataset = load_dataset("FudanSELab/CodeGen4Libs")
DatasetDict({
train: Dataset({
features: [id, method, clean_method, doc, comment, method_name, extra, imports_info, libraries_info, input_str, input_ids, tokenized_input_str, input_token_length, labels, tokenized_labels_str, labels_token_length, retrieved_imports_info, retrieved_code, imports, cluster_imports_info, libraries, attention_mask],
num_rows: 391811
})
validation: Dataset({
features: [id, method, clean_method, doc, comment, method_name, extra, imports_info, libraries_info, input_str, input_ids, tokenized_input_str, input_token_length, labels, tokenized_labels_str, labels_token_length, retrieved_imports_info, retrieved_code, imports, cluster_imports_info, libraries, attention_mask],
num_rows: 5967
})
test: Dataset({
features: [id, method, clean_method, doc, comment, method_name, extra, imports_info, libraries_info, input_str, input_ids, tokenized_input_str, input_token_length, labels, tokenized_labels_str, labels_token_length, retrieved_imports_info, retrieved_code, imports, cluster_imports_info, libraries, attention_mask],
num_rows: 6002
})
})
数据字段
每个元组的具体数据字段如下:
-
id: 每个元组的唯一标识符。
-
method: 每个元组的原始方法级代码。
-
clean_method: 每个任务的基准方法级代码。
-
doc: 每个元组的方法级代码文档。
-
comment: 每个元组的自然语言描述。
-
method_name: 方法的名称。
-
extra: 方法级代码所属代码仓库的额外信息。
- license: 代码仓库的许可证。
- path: 代码仓库的路径。
- repo_name: 代码仓库的名称。
- size: 代码仓库的大小。
-
imports_info: 每个元组的导入语句。
-
libraries_info: 每个元组的库信息。
-
input_str: 模型输入的设计。
-
input_ids: 标记化输入的ID。
-
tokenized_input_str: 标记化输入。
-
input_token_length: 标记化输入的长度。
-
labels: 标记化输出的ID。
-
tokenized_labels_str: 标记化输出。
-
labels_token_length: 标记化输出的长度。
-
retrieved_imports_info: 每个元组的检索导入语句。
-
retrieved_code: 每个元组的检索方法级代码。
-
imports: 每个导入语句的导入包。
-
cluster_imports_info: 代码的集群导入信息。
-
libraries: 代码使用的库。
-
attention_mask: 输入的注意力掩码。
数据分割
数据集被分为训练集、验证集和测试集,分别包含391811、5967和6002条数据。



