five

saridormi/commit-message-quality

收藏
Hugging Face2024-02-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/saridormi/commit-message-quality
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个用于提交信息质量分类的数据集,来源于Commit Message Generation dataset,并经过了清理和重新标记。数据集的目标是训练一个二分类器来过滤高质量的提交信息。数据集包含了每个提交的URL、原始信息、清理后的信息、原始标签、是否为高质量信息的布尔值、是否为低质量信息的布尔值以及二分类标签。

这是一个用于提交信息质量分类的数据集,来源于Commit Message Generation dataset,并经过了清理和重新标记。数据集的目标是训练一个二分类器来过滤高质量的提交信息。数据集包含了每个提交的URL、原始信息、清理后的信息、原始标签、是否为高质量信息的布尔值、是否为低质量信息的布尔值以及二分类标签。
提供机构:
saridormi
原始信息汇总

Commit Message Quality 数据集

数据集概述

该数据集用于提交信息质量分类,是处理提交信息生成数据集的一部分,源自Long Code Arena 基准

这是一个经过清理和重新标记的版本,基于"Commit Message Matters: Investigating Impact and Evolution of Commit Message Quality", ICSE23的研究。数据集去除了“既不为什么也不做什么”的示例,清理了所有外部引用(URLs、问题/PR 引用),并手动标记每个样本,目的是训练一个二元提交信息质量分类器,用于数据过滤。

数据加载

通过以下代码加载数据集:

python from datasets import load_dataset

dataset = load_dataset("saridormi/commit-message-quality", split="test")

注意,所有数据都被视为测试集。

数据集结构

每个示例包含以下字段:

字段 描述
url GitHub 上提交的链接。
original_message 原始数据集中的提交信息。
message 清理了外部引用的提交信息。
original_label 原始数据集中的提交信息标签(Why and What/No Why/No What)。
is_good 提交信息是否为高质量示例(布尔值)。
is_bad 提交信息是否为低质量示例(布尔值)。
binary_label 提交信息标签:1 表示高质量信息,0 表示低质量信息,null 表示不推荐用于分类器训练的信息。

数据点示例:

json { "url": "https://github.com/spring-projects/spring-boot/commit/7080500db9ecf1cf78ad23503280c713bb6e8649", "original_message": "Upgrade to Commons Lang3 3.6

Closes gh-9661", "message": "Upgrade to Commons Lang3 3.6", "original_label": "Why and What", "is_good": false, "is_bad": true, "binary_label": 0.0 }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作