JetBrains-Research/lca-codegen-medium
收藏Hugging Face2024-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/JetBrains-Research/lca-codegen-medium
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为LCA Project Level Code Completion,主要包含GitHub上Python项目的代码补全数据。数据集的每个数据点包括仓库名称、提交哈希、补全文件内容、补全行分类、仓库快照等信息。数据集通过克隆GitHub上的Python项目并提取提交中的`.py`文件来收集数据。数据集的中等规模由仓库快照中`.py`文件的字符数定义,范围在48K到192K之间。数据集包含224个数据点,80个仓库和175个提交。补全文件的行数中位数为310行,仓库快照中`.py`文件的中位数为34个,非`.py`文件的中位数为64.5个。
该数据集名为LCA Project Level Code Completion,主要包含GitHub上Python项目的代码补全数据。数据集的每个数据点包括仓库名称、提交哈希、补全文件内容、补全行分类、仓库快照等信息。数据集通过克隆GitHub上的Python项目并提取提交中的`.py`文件来收集数据。数据集的中等规模由仓库快照中`.py`文件的字符数定义,范围在48K到192K之间。数据集包含224个数据点,80个仓库和175个提交。补全文件的行数中位数为310行,仓库快照中`.py`文件的中位数为34个,非`.py`文件的中位数为64.5个。
提供机构:
JetBrains-Research
原始信息汇总
数据集概述
数据集信息
特征
- repo: 仓库名称,格式为
{GitHub_用户名}__{仓库名称},数据类型为字符串。 - commit_hash: 提交哈希,数据类型为字符串。
- completion_file: 包含完成文件内容的字典,结构如下:
- filename: 完成文件的路径,数据类型为字符串。
- content: 完成文件的内容,数据类型为字符串。
- completion_lines: 包含行类别的字典,值为整数列表(要完成的行号),类别包括:
- committed: 包含至少一个在提交文件中声明的函数或类。
- inproject: 包含至少一个在项目中声明的函数或类(不包括之前的)。
- infile: 包含至少一个在完成文件中声明的函数或类(不包括之前的)。
- common: 包含至少一个被分类为常见的函数或类(不包括之前的)。
- non_informative: 被分类为非信息性的行,例如太短、包含注释等。
- random: 从其余行中随机抽样。
- repo_snapshot: 包含提交前仓库快照的字典,结构与
completion_file相同,但文件名和内容组织为列表。 - completion_lines_raw: 与
completion_lines相同,但抽样前。
分割
- test: 测试集,字节数为 514928459,样本数为 224。
数据集大小
- 下载大小: 225824560 字节
- 数据集大小: 514928459 字节
配置
- default: 数据文件路径为
data/test-*。
数据点结构
- repo: 仓库名称,格式为
{GitHub_用户名}__{仓库名称}。 - commit_hash: 提交哈希。
- completion_file: 包含完成文件内容的字典,结构如下:
- filename: 完成文件的路径。
- content: 完成文件的内容。
- completion_lines: 包含行类别的字典,值为整数列表(要完成的行号),类别包括:
- committed: 包含至少一个在提交文件中声明的函数或类。
- inproject: 包含至少一个在项目中声明的函数或类(不包括之前的)。
- infile: 包含至少一个在完成文件中声明的函数或类(不包括之前的)。
- common: 包含至少一个被分类为常见的函数或类(不包括之前的)。
- non_informative: 被分类为非信息性的行,例如太短、包含注释等。
- random: 从其余行中随机抽样。
- repo_snapshot: 包含提交前仓库快照的字典,结构与
completion_file相同,但文件名和内容组织为列表。 - completion_lines_raw: 与
completion_lines相同,但抽样前。
数据收集方法
数据收集自 GitHub 上主要语言为 Python 的仓库。每个数据点的完成文件是在提交中添加到仓库的 .py 文件。提交前的仓库状态为仓库快照。
数据集统计
- 数据点数量: 224
- 仓库数量: 80
- 提交数量: 175
完成文件
- 行数中位数: 310
- 行数最小值: 200
- 行数最大值: 1648
仓库快照
- .py 文件: 中位数 34,范围从 3 到 117
- 非 .py 文件: 中位数 64.5,范围从 3 到 3977
- .py 行数: 中位数 3786
- 非 .py 行数: 中位数 9735
行计数
- infile: 2224
- inproject: 2236
- common: 779
- committed: 1495
- non-informative: 858
- random: 1084
- 总计: 8676



