five

GitHub Repository Deduplication Dataset

收藏
arXiv2020-06-16 更新2024-06-21 收录
下载链接:
https://doi.org/10.5281/zenodo.3653920
下载链接
链接失效反馈
官方服务:
资源简介:
GitHub Repository Deduplication Dataset是由雅典经济与商业大学创建的一个数据集,旨在解决GitHub项目复制和分叉导致的软件工程研究结果偏差问题。该数据集包含10649348个重复的GitHub项目,每个项目都与一个最终的父项目关联,这些父项目是根据六种度量标准进行排名的。数据集通过创建一个由18.2百万节点和12百万边组成的去噪图来计算相关项目,该图通过将边导向最终父项目来创建。数据集的应用领域包括改进GitHub项目样本的质量,避免机器学习模型训练时的偏差,并提高软件工程研究的有效性。

The GitHub Repository Deduplication Dataset was developed by the Athens University of Economics and Business to mitigate bias in software engineering research caused by GitHub project duplication and forking. This dataset contains 10,649,348 duplicated GitHub projects, each associated with a definitive parent project, where these parent projects are ranked based on six metrics. To identify related projects, the dataset constructs a denoised graph comprising 18.2 million nodes and 12 million edges, with all edges directed toward the definitive parent projects. The potential applications of this dataset include improving the quality of GitHub project samples, reducing bias during machine learning model training, and enhancing the validity of software engineering research.
提供机构:
雅典经济与商业大学
创建时间:
2020-02-06
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作