saridormi/commit-message-quality
收藏Commit Message Quality 数据集
数据集概述
该数据集用于提交信息质量分类,是处理提交信息生成数据集的一部分,源自Long Code Arena 基准。
这是一个经过清理和重新标记的版本,基于"Commit Message Matters: Investigating Impact and Evolution of Commit Message Quality", ICSE23的研究。数据集去除了“既不为什么也不做什么”的示例,清理了所有外部引用(URLs、问题/PR 引用),并手动标记每个样本,目的是训练一个二元提交信息质量分类器,用于数据过滤。
数据加载
通过以下代码加载数据集:
python from datasets import load_dataset
dataset = load_dataset("saridormi/commit-message-quality", split="test")
注意,所有数据都被视为测试集。
数据集结构
每个示例包含以下字段:
| 字段 | 描述 |
|---|---|
url |
GitHub 上提交的链接。 |
original_message |
原始数据集中的提交信息。 |
message |
清理了外部引用的提交信息。 |
original_label |
原始数据集中的提交信息标签(Why and What/No Why/No What)。 |
is_good |
提交信息是否为高质量示例(布尔值)。 |
is_bad |
提交信息是否为低质量示例(布尔值)。 |
binary_label |
提交信息标签:1 表示高质量信息,0 表示低质量信息,null 表示不推荐用于分类器训练的信息。 |
数据点示例:
json { "url": "https://github.com/spring-projects/spring-boot/commit/7080500db9ecf1cf78ad23503280c713bb6e8649", "original_message": "Upgrade to Commons Lang3 3.6
Closes gh-9661", "message": "Upgrade to Commons Lang3 3.6", "original_label": "Why and What", "is_good": false, "is_bad": true, "binary_label": 0.0 }



