HuggingKG

Name: HuggingKG
Creator: 南京大学
Published: 2025-05-23 14:00:20
License: 暂无描述

arXiv2025-05-23 更新2025-05-27 收录

下载链接：

https://huggingface.co/collections/cqsss/huggingbench-67b2ee02ca45b15e351009a2

下载链接

链接失效反馈

官方服务：

资源简介：

HuggingKG是一个基于Hugging Face社区构建的大规模知识图谱，用于机器学习资源管理。该图谱包含260万个节点和620万个边，涵盖了模型、数据集、用户、任务等实体，并记录了模型演化、用户互动等丰富的关系。HuggingKG是公开可用的，旨在促进开源资源共享和管理的研究。

HuggingKG is a large-scale knowledge graph built based on the Hugging Face community for machine learning resource management. It contains 2.6 million nodes and 6.2 million edges, covering entities such as models, datasets, users and tasks, and records rich relationships including model evolution and user interactions. HuggingKG is publicly available, aiming to promote research on open-source resource sharing and management.

提供机构：

南京大学

创建时间：

2025-05-23

搜集汇总

数据集介绍

构建方式

HuggingKG的构建过程遵循了系统化原则，首先通过分析Hugging Face社区网站的结构和实际信息检索需求，定义了8种节点类型和30种边类型。随后利用huggingface_hub库进行数据爬取，获取模型、数据集等实体的完整列表及其关键属性，并通过API请求补充元数据。为确保数据质量，构建过程中进行了严格的数据验证与清洗，包括移除无效边和异常属性值。最终形成的知识图谱包含260万节点和620万边，采用多线程并行处理技术将构建时间控制在20小时内，存储空间约为5.8GB，支持每日更新。

使用方法

该数据集支持三种典型应用场景：在资源推荐任务中，用户-项目交互矩阵与社会关系图可协同训练推荐模型；任务分类任务利用模型和数据集节点的多标签分类特性，结合图神经网络处理结构化数据；模型溯源任务则通过链接预测方法追踪模型间的演化关系。使用前需从Hugging Face平台获取数据文件，建议按照官方提供的GitHub代码库进行预处理，特别注意处理57.2%的模型和33.4%的数据集存在的描述缺失问题。对于计算资源有限的用户，可优先加载1-hop或2-hop邻域子图进行实验。

背景与挑战

背景概述

HuggingKG是由南京大学软件新技术国家重点实验室的研究团队于2025年提出的首个基于Hugging Face社区构建的大规模机器学习资源知识图谱。该图谱包含260万节点和620万边，创新性地整合了模型演化关系（如微调、适配器）和用户交互行为（如点赞、关注），并融合了丰富的文本属性。作为目前该领域规模最大的公开知识图谱，HuggingKG有效解决了开源机器学习资源平台中结构化表征缺失的核心问题，为资源推荐、任务分类和模型溯源等IR任务提供了新的研究范式。其配套的多任务基准HuggingBench进一步推动了开源资源管理领域的研究进展。

当前挑战

在领域问题层面，HuggingKG需应对三大挑战：跨类型资源推荐中稀疏社交图与异构知识图的融合难题，多标签任务分类中长尾分布与文本属性不完整的表征困境，以及模型溯源任务中复杂演化关系的精确推理。构建过程中面临数据获取的复杂性（如处理被删除模型的残留关联）、模式设计的专业性（定义30种ML特定关系）和质量控制的严谨性（验证620万边的准确性）等工程挑战。这些挑战既反映了机器学习资源管理的特殊性，也凸显了大规模知识图谱构建的技术难度。

常用场景

经典使用场景

HuggingKG作为首个基于Hugging Face社区构建的大规模知识图谱，其经典应用场景主要集中在机器学习资源的推荐、分类和追踪。通过整合模型、数据集、用户和任务等多类型实体及其复杂关系，该数据集为研究人员提供了结构化查询和分析的基础，例如追踪模型演化历史或推荐相关数据集。

解决学术问题

HuggingKG有效解决了开源机器学习资源管理中语义关系缺失的关键问题。传统平台依赖关键词搜索和简单元数据标注，难以支持模型演化追踪、任务依赖分析等高级查询。该数据集通过2.6百万节点和6.2百万边的关系建模，填补了跨类型资源推荐、任务分类和模型溯源等研究任务的基准空白。

实际应用

在实际应用中，HuggingKG显著提升了Hugging Face平台的资源管理效率。平台维护者可利用其任务分类功能自动标注新上传模型，用户则能通过关系推理快速发现适配特定任务的预训练模型。工业界还可基于模型演化关系分析技术发展趋势，例如追踪BERT系列模型的优化路径。

数据集最近研究