JetBrains-Research/lca-codegen-large
收藏Hugging Face2024-05-30 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/JetBrains-Research/lca-codegen-large
下载链接
链接失效反馈官方服务:
资源简介:
该数据集主要包含代码补全相关的信息,涉及GitHub上的Python项目。每个数据点包括仓库名称、提交哈希、补全文件内容、补全行分类、仓库快照等信息。数据集通过克隆GitHub上的Python项目收集,补全文件是提交到仓库中的.py文件。数据集包含270个数据点,来自75个仓库和219个提交。
该数据集主要包含代码补全相关的信息,涉及GitHub上的Python项目。每个数据点包括仓库名称、提交哈希、补全文件内容、补全行分类、仓库快照等信息。数据集通过克隆GitHub上的Python项目收集,补全文件是提交到仓库中的.py文件。数据集包含270个数据点,来自75个仓库和219个提交。
提供机构:
JetBrains-Research
原始信息汇总
LCA Project Level Code Completion 数据集概述
数据集信息
特征结构
- repo: 仓库名称,格式为
{GitHub_用户名}__{仓库名称},数据类型为string。 - commit_hash: 提交哈希,数据类型为
string。 - completion_file: 包含完成文件内容的字典,结构如下:
- filename: 完成文件的路径,数据类型为
string。 - content: 完成文件的内容,数据类型为
string。
- filename: 完成文件的路径,数据类型为
- completion_lines: 字典,键为行类别,值为整数列表(待完成的行号),类别包括:
- committed: 包含至少一个在提交文件中声明的函数或类的行。
- inproject: 包含至少一个在项目中声明的函数或类的行(不包括之前的)。
- infile: 包含至少一个在完成文件中声明的函数或类的行(不包括之前的)。
- common: 包含至少一个被分类为通用的函数或类的行(不包括之前的)。
- non_informative: 被分类为非信息性的行,例如太短、包含注释等。
- random: 从剩余行中随机抽取的行。
- repo_snapshot: 提交前仓库的快照,结构与
completion_file相同,但文件名和内容组织为列表。 - completion_lines_raw: 与
completion_lines相同,但抽样前。
数据分割
- test: 测试集,字节数为 2972013125,示例数为 270。
数据集大小
- 下载大小: 1242136049 字节
- 数据集大小: 2972013125 字节
配置
- default: 默认配置,数据文件路径为
data/test-*。
数据点结构
- repo: 仓库名称,格式为
{GitHub_用户名}__{仓库名称}。 - commit_hash: 提交哈希。
- completion_file: 包含完成文件内容的字典,结构如下:
- filename: 完成文件的路径。
- content: 完成文件的内容。
- completion_lines: 字典,键为行类别,值为整数列表(待完成的行号),类别包括:
- committed: 包含至少一个在提交文件中声明的函数或类的行。
- inproject: 包含至少一个在项目中声明的函数或类的行(不包括之前的)。
- infile: 包含至少一个在完成文件中声明的函数或类的行(不包括之前的)。
- common: 包含至少一个被分类为通用的函数或类的行(不包括之前的)。
- non_informative: 被分类为非信息性的行,例如太短、包含注释等。
- random: 从剩余行中随机抽取的行。
- repo_snapshot: 提交前仓库的快照,结构与
completion_file相同,但文件名和内容组织为列表。 - completion_lines_raw: 与
completion_lines相同,但抽样前。
数据收集方法
数据收集自 GitHub 上主要语言为 Python 的仓库。每个数据点的完成文件是在提交中添加到仓库的 .py 文件。提交前的仓库状态为仓库快照。
数据集统计
- 数据点数量: 270
- 仓库数量: 75
- 提交数量: 219
完成文件
- 行数中位数: 278
- 行数最小值: 200
- 行数最大值: 1694
仓库快照
- .py 文件数中位数: 84,范围从 3 到 255
- 非 .py 文件数中位数: 155,范围从 8 到 2174
- .py 行数中位数: 15466.5
- 非 .py 行数中位数: 18759
行计数
- infile: 2691
- inproject: 2595
- common: 693
- committed: 1322
- non-informative: 1019
- random: 1311
- 总计: 9631



