HuggingKG
收藏arXiv2025-05-23 更新2025-05-27 收录
下载链接:
https://huggingface.co/collections/cqsss/huggingbench-67b2ee02ca45b15e351009a2
下载链接
链接失效反馈官方服务:
资源简介:
HuggingKG是一个基于Hugging Face社区构建的大规模知识图谱,用于机器学习资源管理。该图谱包含260万个节点和620万个边,涵盖了模型、数据集、用户、任务等实体,并记录了模型演化、用户互动等丰富的关系。HuggingKG是公开可用的,旨在促进开源资源共享和管理的研究。
提供机构:
南京大学
创建时间:
2025-05-23
搜集汇总
数据集介绍

构建方式
HuggingKG的构建过程遵循了系统化原则,首先通过分析Hugging Face社区网站的结构和实际信息检索需求,定义了8种节点类型和30种边类型。随后利用huggingface_hub库进行数据爬取,获取模型、数据集等实体的完整列表及其关键属性,并通过API请求补充元数据。为确保数据质量,构建过程中进行了严格的数据验证与清洗,包括移除无效边和异常属性值。最终形成的知识图谱包含260万节点和620万边,采用多线程并行处理技术将构建时间控制在20小时内,存储空间约为5.8GB,支持每日更新。
使用方法
该数据集支持三种典型应用场景:在资源推荐任务中,用户-项目交互矩阵与社会关系图可协同训练推荐模型;任务分类任务利用模型和数据集节点的多标签分类特性,结合图神经网络处理结构化数据;模型溯源任务则通过链接预测方法追踪模型间的演化关系。使用前需从Hugging Face平台获取数据文件,建议按照官方提供的GitHub代码库进行预处理,特别注意处理57.2%的模型和33.4%的数据集存在的描述缺失问题。对于计算资源有限的用户,可优先加载1-hop或2-hop邻域子图进行实验。
背景与挑战
背景概述
HuggingKG是由南京大学软件新技术国家重点实验室的研究团队于2025年提出的首个基于Hugging Face社区构建的大规模机器学习资源知识图谱。该图谱包含260万节点和620万边,创新性地整合了模型演化关系(如微调、适配器)和用户交互行为(如点赞、关注),并融合了丰富的文本属性。作为目前该领域规模最大的公开知识图谱,HuggingKG有效解决了开源机器学习资源平台中结构化表征缺失的核心问题,为资源推荐、任务分类和模型溯源等IR任务提供了新的研究范式。其配套的多任务基准HuggingBench进一步推动了开源资源管理领域的研究进展。
当前挑战
在领域问题层面,HuggingKG需应对三大挑战:跨类型资源推荐中稀疏社交图与异构知识图的融合难题,多标签任务分类中长尾分布与文本属性不完整的表征困境,以及模型溯源任务中复杂演化关系的精确推理。构建过程中面临数据获取的复杂性(如处理被删除模型的残留关联)、模式设计的专业性(定义30种ML特定关系)和质量控制的严谨性(验证620万边的准确性)等工程挑战。这些挑战既反映了机器学习资源管理的特殊性,也凸显了大规模知识图谱构建的技术难度。
常用场景
经典使用场景
HuggingKG作为首个基于Hugging Face社区构建的大规模知识图谱,其经典应用场景主要集中在机器学习资源的推荐、分类和追踪。通过整合模型、数据集、用户和任务等多类型实体及其复杂关系,该数据集为研究人员提供了结构化查询和分析的基础,例如追踪模型演化历史或推荐相关数据集。
解决学术问题
HuggingKG有效解决了开源机器学习资源管理中语义关系缺失的关键问题。传统平台依赖关键词搜索和简单元数据标注,难以支持模型演化追踪、任务依赖分析等高级查询。该数据集通过2.6百万节点和6.2百万边的关系建模,填补了跨类型资源推荐、任务分类和模型溯源等研究任务的基准空白。
实际应用
在实际应用中,HuggingKG显著提升了Hugging Face平台的资源管理效率。平台维护者可利用其任务分类功能自动标注新上传模型,用户则能通过关系推理快速发现适配特定任务的预训练模型。工业界还可基于模型演化关系分析技术发展趋势,例如追踪BERT系列模型的优化路径。
数据集最近研究
最新研究方向
近年来,HuggingKG作为首个基于Hugging Face社区构建的大规模知识图谱,在机器学习资源管理领域引起了广泛关注。该数据集通过整合260万节点和620万边,不仅捕捉了领域特定的关系(如模型演化和用户交互),还融合了丰富的文本属性。前沿研究方向主要集中在跨类型资源推荐、任务分类和模型追踪等新型信息检索任务上。随着开源机器学习资源的快速增长,HuggingKG为资源发现、可重复性和管理提供了结构化解决方案,显著推动了开源资源共享和管理的研究进展。其关联的热点事件包括与大型语言模型(如HuggingGPT)的集成,以及知识图谱推理技术的应用,这些都为学术界和工业界提供了重要的研究价值和应用潜力。
相关研究论文
- 1Benchmarking Recommendation, Classification, and Tracing Based on Hugging Face Knowledge Graph南京大学 · 2025年
以上内容由遇见数据集搜集并总结生成



