five

GitHub Repository Deduplication

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/GitHub_Repository_Deduplication
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个包含 1060 万个 GitHub 项目的数据集,这些项目是其他项目的副本,并将每条记录与项目的最终父项链接起来。最终父母来自六个指标的排名。相关项目被计算为一个 1820 万个节点和 1200 万个边去噪图的连通分量,这些边是通过将边指向最终父节点而创建的。该图是通过过滤掉 30 多个精心挑选和 230 万个模式匹配的聚类项目而创建的。通过反复可视化不相关的重要项目之间的最短路径距离来识别引入不需要的聚集的项目。
提供机构:
OpenDataLab
创建时间:
2022-05-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作