JetBrains-Research/lca-project-level-code-completion

Name: JetBrains-Research/lca-project-level-code-completion
Creator: JetBrains-Research
Published: 2024-06-19 08:07:27
License: 暂无描述

Hugging Face2024-06-19 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/JetBrains-Research/lca-project-level-code-completion

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个用于项目级代码补全任务的基准，属于Long Code Arena基准的一部分。每个数据点包含补全文件、补全行的分类列表以及可用于构建上下文的仓库快照。所有仓库均采用MIT、Apache-2.0、BSD-3-Clause和BSD-2-Clause等宽松许可发布。数据点可根据请求删除。数据集根据仓库快照中.py文件的字符数分为小、中、大、超大四种上下文配置。

提供机构：

JetBrains-Research

原始信息汇总

数据集概述

数据集名称

Long Code Arena (Project-level code completion)

许可证

Apache-2.0

数据集结构

features:
- repo: 字符串类型，存储仓库名。
- commit_hash: 字符串类型，存储提交哈希。
- completion_file: 结构体类型，包含文件名和内容。
- completion_lines: 结构体类型，包含多个分类的完成行信息。
- repo_snapshot: 序列类型，包含文件名和内容。
- completion_lines_raw: 结构体类型，与completion_lines类似，但未经采样。

数据集配置

config_name:
- small_context: 小于48K字符。
- medium_context: 48K至192K字符。
- large_context: 192K至768K字符。
- huge_context: 超过768K字符。

数据集统计

small_context:
- 数据点数: 144
- 仓库数: 46
- 提交数: 63
medium_context:
- 数据点数: 224
- 仓库数: 80
- 提交数: 175
large_context:
- 数据点数: 270
- 仓库数: 75
- 提交数: 219
huge_context:
- 数据点数: 296
- 仓库数: 75
- 提交数: 252

完成文件统计

small_context:
- 最小行数: 201
- 最大行数: 1916
- 中位数: 310.5
medium_context:
- 最小行数: 200
- 最大行数: 1648
- 中位数: 310.0
large_context:
- 最小行数: 200
- 最大行数: 1694
- 中位数: 278.0
huge_context:
- 最小行数: 200
- 最大行数: 1877
- 中位数: 313.5

仓库快照统计

small_context:
- .py文件数中位数: 4.0
- .py文件行数中位数: 128.0
medium_context:
- .py文件数中位数: 34.0
- .py文件行数中位数: 3786.0
large_context:
- .py文件数中位数: 84.0
- .py文件行数中位数: 15466.5
huge_context:
- .py文件数中位数: 261.0
- .py文件行数中位数: 49811.0

行计数统计

small_context: 总计4686行
medium_context: 总计8676行
large_context: 总计9631行
huge_context: 总计9810行

5,000+

优质数据集

54 个

任务类型

进入经典数据集