JetBrains-Research/lca-ci-builds-repair
收藏数据集概述
数据集名称
Long Code Arena (CI builds repair)
任务描述
给定失败的GitHub Actions工作流日志和相应的仓库快照,修复仓库内容以使工作流通过。
数据来源
数据来自采用MIT、Apache-2.0、BSD-3-Clause和BSD-2-Clause许可的公开仓库。数据点可根据请求移除。
数据加载
通过load_dataset函数加载数据集:
python
from datasets import load_dataset
dataset = load_dataset("JetBrains-Research/lca-ci-builds-repair", split="test")
注意:所有数据均视为测试集。
数据集结构
该数据集包含某些提交的失败GitHub Actions工作流日志,随后是成功通过工作流的提交。
数据点字段
每个数据点包含以下字段:
| 字段 | 描述 |
|---|---|
contributor |
提交更改的贡献者用户名 |
difficulty |
问题的难度(评估者基于1表示仅需要代码格式化) |
diff |
失败和成功提交之间的差异内容 |
head_branch |
提交推送的原始分支名称 |
id |
数据点的唯一ID |
language |
仓库的主要编程语言 |
logs |
包含log(失败作业的日志,特定步骤)和step_name(失败步骤的名称)的列表 |
repo_name |
原始仓库的名称(GitHub上owner/name的第二部分) |
repo_owner |
原始仓库的所有者(GitHub上owner/name的第一部分) |
sha_fail |
失败提交的SHA |
sha_success |
成功提交的SHA |
workflow |
工作流文件的内容 |
workflow_filename |
工作流文件的名称(不包括目录) |
workflow_name |
工作流的名称 |
workflow_path |
工作流文件的完整路径 |
changed_files |
差异中更改的文件列表 |
commit_link |
对应失败作业的提交URL |
数据点示例
json { "contributor": "Gallaecio", "diff": "diff --git a/scrapy/crawler.py b/scrapy/crawler.py/n<...>", "difficulty": "2", "head_branch": "component-getters", "id": 18, "language": "Python", "logs": [ { "log": "##[group]Run pip install -U tox <...>", "step_name": "checks (3.12, pylint)/4_Run check.txt" } ], "repo_name": "scrapy", "repo_owner": "scrapy", "sha_fail": "0f71221cf9875ed8ef3400e1008408e79b6691e6", "sha_success": "c1ba9ccdf916b89d875628ba143dc5c9f6977430", "workflow": "name: Checks on: [push, pull_request]
<...>", "workflow_filename": "checks.yml", "workflow_name": "Checks", "workflow_path": ".github/workflows/checks.yml", "changed_files": ["scrapy/crawler.py"], "commit_link": "https://github.com/scrapy/scrapy/tree/0f71221cf9875ed8ef3400e1008408e79b6691e6" }



