five

JetBrains-Research/lca-codegen-medium

收藏
Hugging Face2024-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/JetBrains-Research/lca-codegen-medium
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为LCA Project Level Code Completion,主要包含GitHub上Python项目的代码补全数据。数据集的每个数据点包括仓库名称、提交哈希、补全文件内容、补全行分类、仓库快照等信息。数据集通过克隆GitHub上的Python项目并提取提交中的`.py`文件来收集数据。数据集的中等规模由仓库快照中`.py`文件的字符数定义,范围在48K到192K之间。数据集包含224个数据点,80个仓库和175个提交。补全文件的行数中位数为310行,仓库快照中`.py`文件的中位数为34个,非`.py`文件的中位数为64.5个。

该数据集名为LCA Project Level Code Completion,主要包含GitHub上Python项目的代码补全数据。数据集的每个数据点包括仓库名称、提交哈希、补全文件内容、补全行分类、仓库快照等信息。数据集通过克隆GitHub上的Python项目并提取提交中的`.py`文件来收集数据。数据集的中等规模由仓库快照中`.py`文件的字符数定义,范围在48K到192K之间。数据集包含224个数据点,80个仓库和175个提交。补全文件的行数中位数为310行,仓库快照中`.py`文件的中位数为34个,非`.py`文件的中位数为64.5个。
提供机构:
JetBrains-Research
原始信息汇总

数据集概述

数据集信息

特征

  • repo: 仓库名称,格式为 {GitHub_用户名}__{仓库名称},数据类型为字符串。
  • commit_hash: 提交哈希,数据类型为字符串。
  • completion_file: 包含完成文件内容的字典,结构如下:
    • filename: 完成文件的路径,数据类型为字符串。
    • content: 完成文件的内容,数据类型为字符串。
  • completion_lines: 包含行类别的字典,值为整数列表(要完成的行号),类别包括:
    • committed: 包含至少一个在提交文件中声明的函数或类。
    • inproject: 包含至少一个在项目中声明的函数或类(不包括之前的)。
    • infile: 包含至少一个在完成文件中声明的函数或类(不包括之前的)。
    • common: 包含至少一个被分类为常见的函数或类(不包括之前的)。
    • non_informative: 被分类为非信息性的行,例如太短、包含注释等。
    • random: 从其余行中随机抽样。
  • repo_snapshot: 包含提交前仓库快照的字典,结构与 completion_file 相同,但文件名和内容组织为列表。
  • completion_lines_raw: 与 completion_lines 相同,但抽样前。

分割

  • test: 测试集,字节数为 514928459,样本数为 224。

数据集大小

  • 下载大小: 225824560 字节
  • 数据集大小: 514928459 字节

配置

  • default: 数据文件路径为 data/test-*

数据点结构

  • repo: 仓库名称,格式为 {GitHub_用户名}__{仓库名称}
  • commit_hash: 提交哈希。
  • completion_file: 包含完成文件内容的字典,结构如下:
    • filename: 完成文件的路径。
    • content: 完成文件的内容。
  • completion_lines: 包含行类别的字典,值为整数列表(要完成的行号),类别包括:
    • committed: 包含至少一个在提交文件中声明的函数或类。
    • inproject: 包含至少一个在项目中声明的函数或类(不包括之前的)。
    • infile: 包含至少一个在完成文件中声明的函数或类(不包括之前的)。
    • common: 包含至少一个被分类为常见的函数或类(不包括之前的)。
    • non_informative: 被分类为非信息性的行,例如太短、包含注释等。
    • random: 从其余行中随机抽样。
  • repo_snapshot: 包含提交前仓库快照的字典,结构与 completion_file 相同,但文件名和内容组织为列表。
  • completion_lines_raw: 与 completion_lines 相同,但抽样前。

数据收集方法

数据收集自 GitHub 上主要语言为 Python 的仓库。每个数据点的完成文件是在提交中添加到仓库的 .py 文件。提交前的仓库状态为仓库快照。

数据集统计

  • 数据点数量: 224
  • 仓库数量: 80
  • 提交数量: 175

完成文件

  • 行数中位数: 310
  • 行数最小值: 200
  • 行数最大值: 1648

仓库快照

  • .py 文件: 中位数 34,范围从 3 到 117
  • 非 .py 文件: 中位数 64.5,范围从 3 到 3977
  • .py 行数: 中位数 3786
  • 非 .py 行数: 中位数 9735

行计数

  • infile: 2224
  • inproject: 2236
  • common: 779
  • committed: 1495
  • non-informative: 858
  • random: 1084
  • 总计: 8676
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作