five

JetBrains-Research/lca-codegen-small

收藏
Hugging Face2024-06-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/JetBrains-Research/lca-codegen-small
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为LCA Project Level Code Completion,主要用于代码补全任务。数据集包含多个特征,如仓库名称、提交哈希、补全文件内容、补全行信息等。数据集的收集方法是通过克隆GitHub上以Python为主要语言的仓库,并提取提交中的`.py`文件作为补全文件。数据集还提供了详细的统计数据,如数据点数量、仓库数量、提交数量等。
提供机构:
JetBrains-Research
原始信息汇总

LCA Project Level Code Completion 数据集概述

数据集信息

特征

  • repo: 仓库名称,格式为 {GitHub_用户名}__{仓库名称},数据类型为字符串。
  • commit_hash: 提交哈希,数据类型为字符串。
  • completion_file: 包含完成文件内容的字典,结构如下:
    • filename: 完成文件的路径,数据类型为字符串。
    • content: 完成文件的内容,数据类型为字符串。
  • completion_lines: 包含行类别的字典,值为整数列表(要完成的行号),类别包括:
    • committed: 行包含至少一个在提交文件中声明的函数或类。
    • inproject: 行包含至少一个在项目中声明的函数或类(不包括之前的)。
    • infile: 行包含至少一个在完成文件中声明的函数或类(不包括之前的)。
    • common: 行包含至少一个被分类为常见的函数或类(不包括之前的)。
    • non_informative: 被分类为非信息的行,例如太短、包含注释等。
    • random: 从其余行中随机抽样。
  • repo_snapshot: 包含提交前仓库快照的字典,结构与 completion_file 相同,但文件名和内容组织为列表。
  • completion_lines_raw: 与 completion_lines 相同,但在抽样之前。

分割

  • test: 测试集,包含 144 个样本,总字节数为 111010036。

数据集大小

  • 下载大小: 37603701 字节
  • 数据集大小: 111010036 字节

配置

  • default: 默认配置,数据文件路径为 data/test-*

数据集统计

  • 数据点数量: 144
  • 仓库数量: 46
  • 提交数量: 63

完成文件

  • 行数中位数: 310.5
  • 行数最小值: 201
  • 行数最大值: 1916

仓库快照

  • .py 文件数量中位数: 4
  • 非 .py 文件数量中位数: 19.5
  • .py 文件行数中位数: 128
  • 非 .py 文件行数中位数: 1227

行计数

  • infile: 1430
  • inproject: 95
  • common: 500
  • committed: 1426
  • non-informative: 532
  • random: 703
  • 总计: 4686
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作