KnowledgeGraphCompletionDataSet

github2022-06-01 更新2024-05-31 收录

下载链接：

https://github.com/leewangon/KnowledgeGraphCompletionDataSet

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含用于训练和评估知识图谱模型的精炼数据集。数据集包括Kor-KB、NELL-995、FB15K-237、NDSL、DBpedia、DBpia和KData等多个子集，每个子集都有详细的大小、三元组、实体和关系信息。

This repository contains refined datasets for training and evaluating knowledge graph models. The datasets include multiple subsets such as Kor-KB, NELL-995, FB15K-237, NDSL, DBpedia, DBpia, and KData, each with detailed information on size, triples, entities, and relationships.

创建时间：

2019-11-04

原始信息汇总

数据集概述

本数据集为知识图谱模型训练和评估的精细化数据集，包含多个子数据集，用于支持知识图谱的完成任务。

数据格式

数据以n-triple格式表示，每条数据为<subject, relation, object>的三元组形式，采用行基于的纯文本序列化格式，是Turtle格式的一个子集。

数据集详情

数据集	大小	三元组数量	实体数量	关系数量	类别数量
Kor-KB	42MB	1,315,146	488,926	157	921
NELL-995	26MB	308,426	63,917	396	267
FB15K-237	41MB	544,230	14,505	237	354
NDSL	26MB	221,253	246,850	5	5
DBpedia	711MB	14,000,000	4,250,000	717	451
DBpia	64MB	912,412	409,693	4	6
KData	139MB	2,776,394	1,140,000	10,409	113

Kor-KB子任务

Task #1: 国籍
Task #2: 职业
Task #3: 雇主

数据集构建机构

Soongsil University AI Lab

搜集汇总

数据集介绍

构建方式

KnowledgeGraphCompletionDataSet的构建依托于多个知名的知识图谱资源，包括Kor-KB、NELL-995、FB15K-237等。这些数据集经过精心筛选和整理，采用n-triple格式进行存储和传输，确保了数据的结构化和可扩展性。每个数据集均包含实体、关系和三元组信息，涵盖了从国籍、职业到雇主等多种任务类型。数据集的构建工作由Soongsil大学的AI实验室主导，确保了数据的学术性和权威性。

特点

该数据集的特点在于其多样性和广泛性，涵盖了多个领域的知识图谱数据。数据集的规模从26MB到711MB不等，包含的三元组数量从221,253到14,000,000不等，实体数量从14,505到4,250,000不等，关系数量从4到10,409不等。这种多样性使得该数据集能够广泛应用于知识图谱补全、关系推理等任务。此外，数据集的n-triple格式确保了数据的可读性和易用性，适合各种机器学习模型的输入需求。

使用方法

使用KnowledgeGraphCompletionDataSet时，用户可以通过GitHub页面访问各个子数据集的具体内容。每个子数据集均以n-triple格式存储，用户可以直接下载并使用这些数据进行模型训练和评估。数据集的使用方法包括但不限于知识图谱补全、关系推理和实体分类等任务。用户可以根据具体需求选择相应的子数据集，并结合深度学习模型如CNN-BiLSTM进行实验。数据集的详细使用方法和示例代码可以在GitHub页面上找到，便于用户快速上手。

背景与挑战

背景概述

KnowledgeGraphCompletionDataSet是由Soongsil大学AI实验室构建的一个知识图谱补全数据集，旨在为知识图谱模型的训练和评估提供精细化的数据支持。该数据集涵盖了多个子集，包括Kor-KB、NELL-995、FB15K-237等，每个子集包含不同规模的实体、关系和三元组数据。知识图谱补全是人工智能领域中的一个重要研究方向，旨在通过预测缺失的实体或关系来完善知识图谱的结构。该数据集的构建为相关研究提供了丰富的实验数据，推动了知识推理、语义搜索等应用的发展。

当前挑战

知识图谱补全领域面临的主要挑战在于如何有效处理大规模、异构的知识图谱数据。首先，知识图谱中的实体和关系通常具有高度的稀疏性和复杂性，如何从中提取有效的语义信息并预测缺失的链接是一个难题。其次，数据集的构建过程中需要处理多源数据的整合与清洗，确保数据的准确性和一致性。此外，不同子集之间的数据分布差异较大，如何设计通用的模型以应对多样化的数据场景也是一个重要挑战。这些问题的解决对于提升知识图谱补全模型的性能和应用效果具有重要意义。

常用场景

经典使用场景

KnowledgeGraphCompletionDataSet广泛应用于知识图谱补全任务中，特别是在实体关系预测和链接预测领域。通过提供丰富的三元组数据，该数据集为研究人员提供了一个标准化的平台，用于训练和评估各种知识图谱模型，如TransE、DistMult和ConvE等。这些模型通过分析实体之间的关系，预测缺失的链接，从而完善知识图谱的结构。

解决学术问题

该数据集解决了知识图谱中常见的实体关系不完整和链接缺失问题。通过提供多样化的实体和关系数据，研究人员能够开发出更精确的模型，用于预测实体之间的潜在关系。这不仅提高了知识图谱的完整性，还为自然语言处理、推荐系统和信息检索等领域提供了更可靠的数据支持。

衍生相关工作

基于KnowledgeGraphCompletionDataSet，许多经典的研究工作得以展开。例如，Jagvaral等人提出的基于路径推理的知识图谱补全方法，利用CNN-BiLSTM模型结合注意力机制，显著提高了知识图谱补全的准确性。此外，该数据集还催生了一系列改进的模型和算法，如基于图神经网络的补全方法和多任务学习框架，进一步推动了知识图谱领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集