FudanSELab/CodeGen4Libs_RetrievalCodeLib
收藏Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FudanSELab/CodeGen4Libs_RetrievalCodeLib
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是用于ASE2023论文《CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation》的代码检索库。
该数据集是用于ASE2023论文《CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation》的代码检索库。
提供机构:
FudanSELab
原始信息汇总
数据集概述
数据集描述
数据集摘要
该数据集是用于ASE2023论文《CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation》中的代码检索库。
数据集信息
特征
- method: 类型为字符串
- clean_method: 类型为字符串
- doc: 类型为字符串
- comment: 类型为字符串
- method_name: 类型为字符串
- extra: 结构体类型,包含以下字段:
- repo_name: 类型为字符串
- path: 类型为字符串
- license: 类型为字符串
- size: 类型为int64
- imports: 序列类型,元素为字符串
- imports_info: 类型为字符串
- cluster_imports_info: 类型为字符串
- libraries: 序列类型,元素为字符串
- libraries_info: 类型为字符串
- id: 类型为int64
数据分割
- train: 包含2916582个样本,总大小为5373034269字节
数据集大小
- 下载大小: 2492962682字节
- 数据集大小: 5373034269字节
标签
- code-generation
数据集名称
- CodeGen4Libs
数据集规模
- 1M<n<10M



