five

JetBrains-Research/lca-ci-builds-repair

收藏
Hugging Face2025-01-24 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/JetBrains-Research/lca-ci-builds-repair
下载链接
链接失效反馈
官方服务:
资源简介:
Long Code Arena (CI builds repair)数据集是一个用于修复失败的GitHub Actions工作流的基准数据集。该数据集包含失败的GitHub Actions工作流日志和相应的仓库快照,目标是修复仓库内容以使工作流通过。数据来自使用宽松许可证(如MIT、Apache-2.0、BSD-3-Clause和BSD-2-Clause)的仓库。数据集结构包括每个数据点的字段描述,如贡献者、难度、差异、分支、ID、语言、日志、仓库名称、所有者、失败和成功的SHA、工作流内容等。

Long Code Arena (CI builds repair)数据集是一个用于修复失败的GitHub Actions工作流的基准数据集。该数据集包含失败的GitHub Actions工作流日志和相应的仓库快照,目标是修复仓库内容以使工作流通过。数据来自使用宽松许可证(如MIT、Apache-2.0、BSD-3-Clause和BSD-2-Clause)的仓库。数据集结构包括每个数据点的字段描述,如贡献者、难度、差异、分支、ID、语言、日志、仓库名称、所有者、失败和成功的SHA、工作流内容等。
提供机构:
JetBrains-Research
原始信息汇总

数据集概述

数据集名称

Long Code Arena (CI builds repair)

任务描述

给定失败的GitHub Actions工作流日志和相应的仓库快照,修复仓库内容以使工作流通过。

数据来源

数据来自采用MIT、Apache-2.0、BSD-3-Clause和BSD-2-Clause许可的公开仓库。数据点可根据请求移除。

数据加载

通过load_dataset函数加载数据集: python from datasets import load_dataset

dataset = load_dataset("JetBrains-Research/lca-ci-builds-repair", split="test")

注意:所有数据均视为测试集。

数据集结构

该数据集包含某些提交的失败GitHub Actions工作流日志,随后是成功通过工作流的提交。

数据点字段

每个数据点包含以下字段:

字段 描述
contributor 提交更改的贡献者用户名
difficulty 问题的难度(评估者基于1表示仅需要代码格式化)
diff 失败和成功提交之间的差异内容
head_branch 提交推送的原始分支名称
id 数据点的唯一ID
language 仓库的主要编程语言
logs 包含log(失败作业的日志,特定步骤)和step_name(失败步骤的名称)的列表
repo_name 原始仓库的名称(GitHub上owner/name的第二部分)
repo_owner 原始仓库的所有者(GitHub上owner/name的第一部分)
sha_fail 失败提交的SHA
sha_success 成功提交的SHA
workflow 工作流文件的内容
workflow_filename 工作流文件的名称(不包括目录)
workflow_name 工作流的名称
workflow_path 工作流文件的完整路径
changed_files 差异中更改的文件列表
commit_link 对应失败作业的提交URL

数据点示例

json { "contributor": "Gallaecio", "diff": "diff --git a/scrapy/crawler.py b/scrapy/crawler.py/n<...>", "difficulty": "2", "head_branch": "component-getters", "id": 18, "language": "Python", "logs": [ { "log": "##[group]Run pip install -U tox <...>", "step_name": "checks (3.12, pylint)/4_Run check.txt" } ], "repo_name": "scrapy", "repo_owner": "scrapy", "sha_fail": "0f71221cf9875ed8ef3400e1008408e79b6691e6", "sha_success": "c1ba9ccdf916b89d875628ba143dc5c9f6977430", "workflow": "name: Checks on: [push, pull_request]

<...>", "workflow_filename": "checks.yml", "workflow_name": "Checks", "workflow_path": ".github/workflows/checks.yml", "changed_files": ["scrapy/crawler.py"], "commit_link": "https://github.com/scrapy/scrapy/tree/0f71221cf9875ed8ef3400e1008408e79b6691e6" }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作