JetBrains-Research/lca-codegen-small
收藏Hugging Face2024-06-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/JetBrains-Research/lca-codegen-small
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为LCA Project Level Code Completion,主要用于代码补全任务。数据集包含多个特征,如仓库名称、提交哈希、补全文件内容、补全行信息等。数据集的收集方法是通过克隆GitHub上以Python为主要语言的仓库,并提取提交中的`.py`文件作为补全文件。数据集还提供了详细的统计数据,如数据点数量、仓库数量、提交数量等。
提供机构:
JetBrains-Research
原始信息汇总
LCA Project Level Code Completion 数据集概述
数据集信息
特征
- repo: 仓库名称,格式为
{GitHub_用户名}__{仓库名称},数据类型为字符串。 - commit_hash: 提交哈希,数据类型为字符串。
- completion_file: 包含完成文件内容的字典,结构如下:
- filename: 完成文件的路径,数据类型为字符串。
- content: 完成文件的内容,数据类型为字符串。
- completion_lines: 包含行类别的字典,值为整数列表(要完成的行号),类别包括:
- committed: 行包含至少一个在提交文件中声明的函数或类。
- inproject: 行包含至少一个在项目中声明的函数或类(不包括之前的)。
- infile: 行包含至少一个在完成文件中声明的函数或类(不包括之前的)。
- common: 行包含至少一个被分类为常见的函数或类(不包括之前的)。
- non_informative: 被分类为非信息的行,例如太短、包含注释等。
- random: 从其余行中随机抽样。
- repo_snapshot: 包含提交前仓库快照的字典,结构与
completion_file相同,但文件名和内容组织为列表。 - completion_lines_raw: 与
completion_lines相同,但在抽样之前。
分割
- test: 测试集,包含 144 个样本,总字节数为 111010036。
数据集大小
- 下载大小: 37603701 字节
- 数据集大小: 111010036 字节
配置
- default: 默认配置,数据文件路径为
data/test-*。
数据集统计
- 数据点数量: 144
- 仓库数量: 46
- 提交数量: 63
完成文件
- 行数中位数: 310.5
- 行数最小值: 201
- 行数最大值: 1916
仓库快照
- .py 文件数量中位数: 4
- 非 .py 文件数量中位数: 19.5
- .py 文件行数中位数: 128
- 非 .py 文件行数中位数: 1227
行计数
- infile: 1430
- inproject: 95
- common: 500
- committed: 1426
- non-informative: 532
- random: 703
- 总计: 4686



