JetBrains-Research/lca-project-level-code-completion
收藏Hugging Face2024-06-19 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/JetBrains-Research/lca-project-level-code-completion
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个用于项目级代码补全任务的基准,属于Long Code Arena基准的一部分。每个数据点包含补全文件、补全行的分类列表以及可用于构建上下文的仓库快照。所有仓库均采用MIT、Apache-2.0、BSD-3-Clause和BSD-2-Clause等宽松许可发布。数据点可根据请求删除。数据集根据仓库快照中.py文件的字符数分为小、中、大、超大四种上下文配置。
该数据集是一个用于项目级代码补全任务的基准,属于Long Code Arena基准的一部分。每个数据点包含补全文件、补全行的分类列表以及可用于构建上下文的仓库快照。所有仓库均采用MIT、Apache-2.0、BSD-3-Clause和BSD-2-Clause等宽松许可发布。数据点可根据请求删除。数据集根据仓库快照中.py文件的字符数分为小、中、大、超大四种上下文配置。
提供机构:
JetBrains-Research
原始信息汇总
数据集概述
数据集名称
- Long Code Arena (Project-level code completion)
许可证
- Apache-2.0
数据集结构
- features:
- repo: 字符串类型,存储仓库名。
- commit_hash: 字符串类型,存储提交哈希。
- completion_file: 结构体类型,包含文件名和内容。
- completion_lines: 结构体类型,包含多个分类的完成行信息。
- repo_snapshot: 序列类型,包含文件名和内容。
- completion_lines_raw: 结构体类型,与
completion_lines类似,但未经采样。
数据集配置
- config_name:
- small_context: 小于48K字符。
- medium_context: 48K至192K字符。
- large_context: 192K至768K字符。
- huge_context: 超过768K字符。
数据集统计
- small_context:
- 数据点数: 144
- 仓库数: 46
- 提交数: 63
- medium_context:
- 数据点数: 224
- 仓库数: 80
- 提交数: 175
- large_context:
- 数据点数: 270
- 仓库数: 75
- 提交数: 219
- huge_context:
- 数据点数: 296
- 仓库数: 75
- 提交数: 252
完成文件统计
- small_context:
- 最小行数: 201
- 最大行数: 1916
- 中位数: 310.5
- medium_context:
- 最小行数: 200
- 最大行数: 1648
- 中位数: 310.0
- large_context:
- 最小行数: 200
- 最大行数: 1694
- 中位数: 278.0
- huge_context:
- 最小行数: 200
- 最大行数: 1877
- 中位数: 313.5
仓库快照统计
- small_context:
.py文件数中位数: 4.0.py文件行数中位数: 128.0
- medium_context:
.py文件数中位数: 34.0.py文件行数中位数: 3786.0
- large_context:
.py文件数中位数: 84.0.py文件行数中位数: 15466.5
- huge_context:
.py文件数中位数: 261.0.py文件行数中位数: 49811.0
行计数统计
- small_context: 总计4686行
- medium_context: 总计8676行
- large_context: 总计9631行
- huge_context: 总计9810行



