five

FudanSELab/CodeGen4Libs_RetrievalCodeLib

收藏
Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FudanSELab/CodeGen4Libs_RetrievalCodeLib
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是用于ASE2023论文《CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation》的代码检索库。

该数据集是用于ASE2023论文《CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation》的代码检索库。
提供机构:
FudanSELab
原始信息汇总

数据集概述

数据集描述

数据集摘要

该数据集是用于ASE2023论文《CodeGen4Libs: A Two-stage Approach for Library-oriented Code Generation》中的代码检索库。

数据集信息

特征

  • method: 类型为字符串
  • clean_method: 类型为字符串
  • doc: 类型为字符串
  • comment: 类型为字符串
  • method_name: 类型为字符串
  • extra: 结构体类型,包含以下字段:
    • repo_name: 类型为字符串
    • path: 类型为字符串
    • license: 类型为字符串
    • size: 类型为int64
  • imports: 序列类型,元素为字符串
  • imports_info: 类型为字符串
  • cluster_imports_info: 类型为字符串
  • libraries: 序列类型,元素为字符串
  • libraries_info: 类型为字符串
  • id: 类型为int64

数据分割

  • train: 包含2916582个样本,总大小为5373034269字节

数据集大小

  • 下载大小: 2492962682字节
  • 数据集大小: 5373034269字节

标签

  • code-generation

数据集名称

  • CodeGen4Libs

数据集规模

  • 1M<n<10M
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作