JetBrains-Research/lca-codegen-medium

Name: JetBrains-Research/lca-codegen-medium
Creator: JetBrains-Research
Published: 2024-05-30 15:26:13
License: 暂无描述

Hugging Face2024-05-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/JetBrains-Research/lca-codegen-medium

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为LCA Project Level Code Completion，主要包含GitHub上Python项目的代码补全数据。数据集的每个数据点包括仓库名称、提交哈希、补全文件内容、补全行分类、仓库快照等信息。数据集通过克隆GitHub上的Python项目并提取提交中的`.py`文件来收集数据。数据集的中等规模由仓库快照中`.py`文件的字符数定义，范围在48K到192K之间。数据集包含224个数据点，80个仓库和175个提交。补全文件的行数中位数为310行，仓库快照中`.py`文件的中位数为34个，非`.py`文件的中位数为64.5个。

提供机构：

JetBrains-Research

原始信息汇总

数据集概述

数据集信息

特征

repo: 仓库名称，格式为 {GitHub_用户名}__{仓库名称}，数据类型为字符串。
commit_hash: 提交哈希，数据类型为字符串。
completion_file: 包含完成文件内容的字典，结构如下：
- filename: 完成文件的路径，数据类型为字符串。
- content: 完成文件的内容，数据类型为字符串。
completion_lines: 包含行类别的字典，值为整数列表（要完成的行号），类别包括：
- committed: 包含至少一个在提交文件中声明的函数或类。
- inproject: 包含至少一个在项目中声明的函数或类（不包括之前的）。
- infile: 包含至少一个在完成文件中声明的函数或类（不包括之前的）。
- common: 包含至少一个被分类为常见的函数或类（不包括之前的）。
- non_informative: 被分类为非信息性的行，例如太短、包含注释等。
- random: 从其余行中随机抽样。
repo_snapshot: 包含提交前仓库快照的字典，结构与 completion_file 相同，但文件名和内容组织为列表。
completion_lines_raw: 与 completion_lines 相同，但抽样前。

分割

test: 测试集，字节数为 514928459，样本数为 224。

数据集大小

下载大小: 225824560 字节
数据集大小: 514928459 字节

配置

default: 数据文件路径为 data/test-*。

数据点结构

repo: 仓库名称，格式为 {GitHub_用户名}__{仓库名称}。
commit_hash: 提交哈希。
completion_file: 包含完成文件内容的字典，结构如下：
- filename: 完成文件的路径。
- content: 完成文件的内容。
completion_lines: 包含行类别的字典，值为整数列表（要完成的行号），类别包括：
- committed: 包含至少一个在提交文件中声明的函数或类。
- inproject: 包含至少一个在项目中声明的函数或类（不包括之前的）。
- infile: 包含至少一个在完成文件中声明的函数或类（不包括之前的）。
- common: 包含至少一个被分类为常见的函数或类（不包括之前的）。
- non_informative: 被分类为非信息性的行，例如太短、包含注释等。
- random: 从其余行中随机抽样。
repo_snapshot: 包含提交前仓库快照的字典，结构与 completion_file 相同，但文件名和内容组织为列表。
completion_lines_raw: 与 completion_lines 相同，但抽样前。

数据收集方法

数据收集自 GitHub 上主要语言为 Python 的仓库。每个数据点的完成文件是在提交中添加到仓库的 .py 文件。提交前的仓库状态为仓库快照。

数据集统计

数据点数量: 224
仓库数量: 80
提交数量: 175

完成文件

行数中位数: 310
行数最小值: 200
行数最大值: 1648

仓库快照

.py 文件: 中位数 34，范围从 3 到 117
非 .py 文件: 中位数 64.5，范围从 3 到 3977
.py 行数: 中位数 3786
非 .py 行数: 中位数 9735

行计数

infile: 2224
inproject: 2236
common: 779
committed: 1495
non-informative: 858
random: 1084
总计: 8676

5,000+

优质数据集

54 个

任务类型

进入经典数据集