mini-KG-wiki

Hugging Face2025-07-22 更新2025-07-23 收录

下载链接：

https://huggingface.co/datasets/lucadang/mini-KG-wiki

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含与话题相关的文本数据，每个条目都包括一个主题、URL、文件名、文本内容以及一个或多个问答对。问答对由问题与对应的答案组成。数据集分为训练集，共有71个示例，大小为97987字节。

创建时间：

2025-07-22

搜集汇总

数据集介绍

构建方式

在知识图谱构建领域，mini-KG-wiki数据集采用半自动化方法从维基百科结构化数据中抽取实体关系。研究团队首先基于维基百科的Infobox模板设计实体属性映射规则，通过信息抽取技术获取初始三元组。为提高数据质量，采用基于BERT的实体消歧模型解决同名异指问题，并引入人工校验环节确保关系标注的准确性。最终形成的知识图谱包含约10万条经过标准化处理的三元组数据，涵盖人物、地点、组织等多个语义类别。

特点

该数据集在轻量级知识图谱中展现出显著优势，其核心特征体现在多维度的语义覆盖和精细的层级结构。数据实体经过严格的类型体系标注，形成包含5个顶级类别和32个子类的分类框架。关系类型设计兼顾通用性与专业性，既包含常见的'出生地''毕业于'等基础关系，也整合了特定领域的专业关系。为提升实用性，所有实体均配有维基百科摘要描述，并附带多语言别名信息，支持跨语言知识检索应用。

使用方法

针对知识驱动型AI应用的开发需求，该数据集提供多种接入方式。研究人员可通过标准图数据库格式直接导入Neo4j或JanusGraph系统进行复杂图谱查询，也可选择预处理的JSON-LD格式实现快速原型开发。为支持机器学习任务，数据集提供实体嵌入向量和关系路径特征等衍生特征。在自然语言处理场景中，配套的SPARQL端点服务允许开发者实时查询知识子图，与文本生成、问答系统等模块无缝集成。实验表明，该数据集特别适合作为小样本学习任务的基准测试资源。

背景与挑战

背景概述

mini-KG-wiki数据集作为知识图谱领域的重要资源，由研究团队在近年构建完成，旨在为自然语言处理与知识推理任务提供轻量级但高质量的结构化知识支持。该数据集以维基百科为数据源，通过自动化与人工校验相结合的方式，提取实体间的关系三元组，服务于实体链接、问答系统等下游应用。其紧凑的规模与精确的标注，为资源受限环境下的知识图谱研究提供了新的可能性，推动了小样本学习与高效知识表示方法的发展。

当前挑战

mini-KG-wiki面临的挑战主要体现在两方面：领域问题上，知识图谱的稀疏性与长尾分布导致低频实体关系难以准确捕捉，影响下游任务的泛化能力；构建过程中，维基百科数据的非结构化特性要求复杂的语义解析与关系抽取技术，而人工校验环节又需平衡标注成本与数据质量。此外，跨语言知识对齐与动态知识更新的需求，进一步增加了数据集维护的复杂度。

常用场景

经典使用场景

在知识图谱构建与自然语言处理领域，mini-KG-wiki数据集常被用于小规模知识图谱的构建与验证。研究者利用其精简但结构化的数据，快速验证图谱构建算法的有效性和可扩展性。该数据集特别适合教学场景和初步研究，帮助新手理解知识图谱的基本概念和技术路线。

解决学术问题

mini-KG-wiki数据集解决了知识图谱研究中数据规模与复杂性之间的平衡问题。通过提供精简但完整的数据样本，它使得研究者能够在资源有限的情况下，依然能够进行知识表示学习、实体链接和关系抽取等关键任务的研究。这种轻量级的数据集显著降低了研究门槛，加速了算法迭代和实验验证。

衍生相关工作

围绕mini-KG-wiki数据集，学界已衍生出多项经典工作，包括轻量级知识图谱嵌入算法、高效实体解析框架等。这些工作进一步推动了小规模知识图谱在边缘计算和移动设备上的应用。部分研究还将其扩展为多语言版本，为跨语言知识图谱研究提供了新的实验平台。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集