GitHub Repository Deduplication
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/GitHub_Repository_Deduplication
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含 1060 万个 GitHub 项目的数据集,这些项目是其他项目的副本,并将每条记录与项目的最终父项链接起来。最终父母来自六个指标的排名。相关项目被计算为一个 1820 万个节点和 1200 万个边去噪图的连通分量,这些边是通过将边指向最终父节点而创建的。该图是通过过滤掉 30 多个精心挑选和 230 万个模式匹配的聚类项目而创建的。通过反复可视化不相关的重要项目之间的最短路径距离来识别引入不需要的聚集的项目。
提供机构:
OpenDataLab
创建时间:
2022-05-23



