five

JetBrains-Research/lca-project-level-code-completion

收藏
Hugging Face2024-06-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/JetBrains-Research/lca-project-level-code-completion
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是一个用于项目级代码补全任务的基准,属于Long Code Arena基准的一部分。每个数据点包含补全文件、补全行的分类列表以及可用于构建上下文的仓库快照。所有仓库均采用MIT、Apache-2.0、BSD-3-Clause和BSD-2-Clause等宽松许可发布。数据点可根据请求删除。数据集根据仓库快照中.py文件的字符数分为小、中、大、超大四种上下文配置。

该数据集是一个用于项目级代码补全任务的基准,属于Long Code Arena基准的一部分。每个数据点包含补全文件、补全行的分类列表以及可用于构建上下文的仓库快照。所有仓库均采用MIT、Apache-2.0、BSD-3-Clause和BSD-2-Clause等宽松许可发布。数据点可根据请求删除。数据集根据仓库快照中.py文件的字符数分为小、中、大、超大四种上下文配置。
提供机构:
JetBrains-Research
原始信息汇总

数据集概述

数据集名称

  • Long Code Arena (Project-level code completion)

许可证

  • Apache-2.0

数据集结构

  • features:
    • repo: 字符串类型,存储仓库名。
    • commit_hash: 字符串类型,存储提交哈希。
    • completion_file: 结构体类型,包含文件名和内容。
    • completion_lines: 结构体类型,包含多个分类的完成行信息。
    • repo_snapshot: 序列类型,包含文件名和内容。
    • completion_lines_raw: 结构体类型,与completion_lines类似,但未经采样。

数据集配置

  • config_name:
    • small_context: 小于48K字符。
    • medium_context: 48K至192K字符。
    • large_context: 192K至768K字符。
    • huge_context: 超过768K字符。

数据集统计

  • small_context:
    • 数据点数: 144
    • 仓库数: 46
    • 提交数: 63
  • medium_context:
    • 数据点数: 224
    • 仓库数: 80
    • 提交数: 175
  • large_context:
    • 数据点数: 270
    • 仓库数: 75
    • 提交数: 219
  • huge_context:
    • 数据点数: 296
    • 仓库数: 75
    • 提交数: 252

完成文件统计

  • small_context:
    • 最小行数: 201
    • 最大行数: 1916
    • 中位数: 310.5
  • medium_context:
    • 最小行数: 200
    • 最大行数: 1648
    • 中位数: 310.0
  • large_context:
    • 最小行数: 200
    • 最大行数: 1694
    • 中位数: 278.0
  • huge_context:
    • 最小行数: 200
    • 最大行数: 1877
    • 中位数: 313.5

仓库快照统计

  • small_context:
    • .py文件数中位数: 4.0
    • .py文件行数中位数: 128.0
  • medium_context:
    • .py文件数中位数: 34.0
    • .py文件行数中位数: 3786.0
  • large_context:
    • .py文件数中位数: 84.0
    • .py文件行数中位数: 15466.5
  • huge_context:
    • .py文件数中位数: 261.0
    • .py文件行数中位数: 49811.0

行计数统计

  • small_context: 总计4686行
  • medium_context: 总计8676行
  • large_context: 总计9631行
  • huge_context: 总计9810行
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作