JetBrains-Research/lca-codegen-small

Name: JetBrains-Research/lca-codegen-small
Creator: JetBrains-Research
Published: 2024-06-03 09:46:37
License: 暂无描述

Hugging Face2024-06-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/JetBrains-Research/lca-codegen-small

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为LCA Project Level Code Completion，主要用于代码补全任务。数据集包含多个特征，如仓库名称、提交哈希、补全文件内容、补全行信息等。数据集的收集方法是通过克隆GitHub上以Python为主要语言的仓库，并提取提交中的`.py`文件作为补全文件。数据集还提供了详细的统计数据，如数据点数量、仓库数量、提交数量等。

提供机构：

JetBrains-Research

原始信息汇总

LCA Project Level Code Completion 数据集概述

数据集信息

特征

repo: 仓库名称，格式为 {GitHub_用户名}__{仓库名称}，数据类型为字符串。
commit_hash: 提交哈希，数据类型为字符串。
completion_file: 包含完成文件内容的字典，结构如下：
- filename: 完成文件的路径，数据类型为字符串。
- content: 完成文件的内容，数据类型为字符串。
completion_lines: 包含行类别的字典，值为整数列表（要完成的行号），类别包括：
- committed: 行包含至少一个在提交文件中声明的函数或类。
- inproject: 行包含至少一个在项目中声明的函数或类（不包括之前的）。
- infile: 行包含至少一个在完成文件中声明的函数或类（不包括之前的）。
- common: 行包含至少一个被分类为常见的函数或类（不包括之前的）。
- non_informative: 被分类为非信息的行，例如太短、包含注释等。
- random: 从其余行中随机抽样。
repo_snapshot: 包含提交前仓库快照的字典，结构与 completion_file 相同，但文件名和内容组织为列表。
completion_lines_raw: 与 completion_lines 相同，但在抽样之前。

分割

test: 测试集，包含 144 个样本，总字节数为 111010036。

数据集大小

下载大小: 37603701 字节
数据集大小: 111010036 字节

配置

default: 默认配置，数据文件路径为 data/test-*。

数据集统计

数据点数量: 144
仓库数量: 46
提交数量: 63

完成文件

行数中位数: 310.5
行数最小值: 201
行数最大值: 1916

仓库快照

.py 文件数量中位数: 4
非 .py 文件数量中位数: 19.5
.py 文件行数中位数: 128
非 .py 文件行数中位数: 1227

行计数

infile: 1430
inproject: 95
common: 500
committed: 1426
non-informative: 532
random: 703
总计: 4686

5,000+

优质数据集

54 个

任务类型

进入经典数据集