MCMD
收藏arXiv2025-09-30 收录
下载链接:
http://doi.org/10.5281/zenodo.5025758
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为MCMD,它从GitHub上排名前100的星标仓库中收集了五种编程语言(Java、C#、C++、Python、JavaScript)的提交记录。在去除冗余和噪声信息后,确保了每种语言都有平衡的样本,即每种语言保留45万个提交。每个提交记录包含了代码差异、提交信息、仓库名称以及时间戳。此外,该数据集还采用了结构化方式来表示使用token-level变更动作的细粒度代码变化。规模上,每种编程语言都包含了45万个提交。该数据集的任务是生成提交信息。
This dataset is named MCMD. It collects commit records from the top 100 most-starred GitHub repositories across five programming languages: Java, C#, C++, Python, and JavaScript. After removing redundant and noisy information, the dataset ensures balanced samples for each language, with 450,000 commits retained for every one of them. Each commit record contains code diffs, commit messages, repository names, and timestamps. Additionally, the dataset adopts a structured format to represent fine-grained code changes via token-level change operations. In terms of scale, each programming language includes 450,000 commits. The task of this dataset is commit message generation.
搜集汇总
数据集介绍

背景与挑战
背景概述
MCMD是一个多编程语言提交消息数据集,规模大且信息丰富,用于评估提交消息生成模型的性能。数据集包含50.2GB的文件,分为过滤后的数据和原始数据两部分,适用于计算机科学和软件工程领域的研究。
以上内容由遇见数据集搜集并总结生成



