five

Linux Kernel Out-of-Memory Killer Commit Messages Dataset

收藏
arXiv2024-02-07 更新2024-06-21 收录
下载链接:
https://zenodo.org/records/10063089
下载链接
链接失效反馈
官方服务:
资源简介:
Linux Kernel Out-of-Memory Killer Commit Messages Dataset是由蒙特利尔大学创建的一个高质量标注数据集,专注于分析Linux内核Out-of-Memory Killer组件的提交信息。该数据集包含404个提交,每个提交都经过人工标注,以识别其中的决策、合理性和支持事实。数据集的创建旨在深入理解开源项目中开发者如何记录和表达其决策的合理性,以及这些信息的结构和演化。通过此数据集,研究者可以分析合理性信息的频率、影响因素、时间演化以及提交信息的结构,从而为自动提取合理性信息和改进提交信息提供依据。

The Linux Kernel Out-of-Memory Killer Commit Messages Dataset is a high-quality annotated dataset created by the University of Montreal, focusing on analyzing commit messages of the Linux Kernel's Out-of-Memory Killer component. The dataset consists of 404 commits, each of which has been manually annotated to identify the decisions made, their justifications, and supporting facts within the commits. The dataset was developed to gain in-depth insights into how developers in open-source projects document and articulate the justifications for their decisions, as well as the structure and evolution of such information. With this dataset, researchers can analyze the frequency of justification-related information, its influencing factors, temporal evolution, and the structural features of commit messages, thereby providing a reliable basis for the automatic extraction of justification information and the improvement of commit messages.
提供机构:
蒙特利尔大学
创建时间:
2024-02-07
搜集汇总
数据集介绍
main_image_url
构建方式
在软件工程领域,开发者提交代码时的提交信息常蕴含丰富的决策依据,但其中理性信息的系统化研究尚属空白。本数据集聚焦于Linux内核内存管理子系统中的Out-of-Memory Killer组件,通过系统化标注其提交信息中的理性内容构建而成。研究团队从Git版本库中提取了自2005年4月至2022年9月期间该组件的418条提交记录,排除了合并提交等非信息性条目,最终保留了404条有效提交。每条提交信息经过预处理,移除了元数据、URL及代码片段,并分割为独立句子。随后,三位标注者依据预先定义的编码手册,采用决策、理性、支持事实及不适用四类标签,对2333个句子进行了多轮独立标注与一致性校验,最终形成了包含2234个标注句子的高质量数据集。
使用方法
该数据集为软件工程、经验软件研究及自然语言处理领域提供了宝贵的实证资源。研究者可利用其分析开源项目中理性信息的出现模式、时序演化及结构特征,例如探究开发者经验与理性表达质量的关系,或识别提交信息的常见组织模式。数据集以CSV格式公开,每条记录包含提交标识、作者、预处理后的消息文本及三类标注的二元指示符,便于进行定量统计与机器学习建模。具体应用时,可结合标注结果训练自动理性提取模型,或作为基准评估提交信息生成工具的质量。此外,其标注框架与协议也可为扩展至其他软件项目的类似研究提供方法论参考。
背景与挑战
背景概述
在软件工程领域,开发者决策的理性记录对于系统演进至关重要,而代码提交信息作为记录变更动机的主要载体,其内部理性信息的结构与特征尚未得到充分探索。Linux Kernel Out-of-Memory Killer Commit Messages Dataset 由蒙特利尔大学与蒙特利尔理工的研究团队于2024年创建,旨在深入分析Linux内核内存管理模块提交信息中的理性内容。该数据集聚焦于开源协作环境中开发者如何通过提交信息表达决策、理由与支持性事实,核心研究问题在于揭示理性信息在真实项目中的存在性、时间演化规律及其结构模式。通过对OOM-Killer组件提交历史的系统标注与分析,该研究为自动化理性提取与软件维护实践提供了实证基础,推动了开发者理性文档化研究的深入发展。
当前挑战
该数据集所针对的领域问题在于从非结构化文本中提取与理解开发者理性信息,其挑战体现在自然语言表达的多样性与模糊性,例如提交信息中常包含隐含的技术语境、非母语作者的时态混淆以及简略的价值判断表述,这为理性类别的准确标注带来了困难。在数据集构建过程中,研究团队面临预处理阶段的格式不一致问题,如提交信息中混杂的元数据、代码片段与日志痕迹难以完全过滤,需依赖人工标注进行二次清理。此外,标注过程涉及多标注者间的主观差异,尽管通过迭代训练与协议协商提升了标注一致性,但理性类别之间的显著重叠仍反映了该任务的内在复杂性,未来需进一步探索更细粒度的分析单元以提升数据集的质量与适用性。
常用场景
经典使用场景
在软件工程领域,开发者决策的追溯与理解是系统维护与演化的关键环节。Linux Kernel Out-of-Memory Killer Commit Messages Dataset 为研究者提供了一个精心标注的代码提交消息集合,专注于分析开源项目中开发者决策背后的逻辑依据。该数据集通过人工标注,将提交消息中的句子分类为决策、理由和支持事实,从而揭示了在Linux内核OOM-Killer组件开发过程中,开发者如何记录和传达变更的动机与背景。这一经典使用场景使得研究者能够深入探究开源协作中理性信息的表达模式与结构特征。
解决学术问题
该数据集有效解决了软件工程中关于开发者理性信息研究的若干核心问题。首先,它填补了现有文献中对真实世界代码提交消息中理性信息存在性与结构特征缺乏系统性研究的空白。通过量化分析,数据集揭示了理性信息在提交消息中的普遍性(约98.9%的提交包含理性句子)与密度分布(平均约60%的句子包含理性内容),为理解开源社区文档实践提供了实证基础。其次,数据集支持了对理性信息随时间演化的研究,展示了其稳定性与影响因素,如开发者经验与提交规模的关系。这些发现为制定更有效的代码提交指南和自动化工具开发奠定了理论基础。
实际应用
在实际应用层面,该数据集为软件工程工具与实践提供了重要支持。例如,基于数据集中揭示的理性信息结构模式(如决策-支持事实-理由的常见顺序),可以开发自动化工具来检测或改进提交消息的质量,确保变更理由得到充分记录。此外,数据集可作为训练机器学习模型的基准,用于自动提取或分类提交消息中的理性内容,从而辅助代码审查、知识管理以及项目文档生成。对于Linux内核等大型开源项目,这些应用有助于降低维护成本,提升协作效率,并促进新开发者对系统决策背景的理解。
数据集最近研究
最新研究方向
在软件工程领域,特别是开源软件维护与演化研究中,开发者决策依据的文档化已成为提升代码可理解性与协作效率的关键议题。Linux内核作为大规模协作开发的典范,其提交信息中蕴含的决策依据(rationale)为理解系统演化提供了宝贵资源。近期研究聚焦于构建高质量标注数据集,以深入分析Linux内核内存管理模块(Out-of-Memory Killer)提交信息中决策依据的存在性、结构特征及时序演化规律。通过系统化标注与量化分析,研究发现超过98%的提交包含决策依据信息,且经验丰富的开发者在其提交中约60%的句子涉及决策依据表达。这一成果不仅揭示了开源社区中决策依据文档化的普遍性与稳定性,还为自动化决策依据提取工具的开发提供了基准数据集,进而推动智能提交信息生成、代码审查辅助等前沿方向的发展。相关研究已在软件工程顶级会议ICPC 2024发表,标志着开发者决策依据挖掘从理论探索向实证分析的重要转变。
相关研究论文
  • 1
    Rationale Dataset and Analysis for the Commit Messages of the Linux Kernel Out-of-Memory Killer蒙特利尔大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作