FB15k-237

Name: FB15k-237
Creator: 武汉大学计算机科学学院，阿里巴巴集团达摩院
Published: 2024-12-12 17:22:04
License: 暂无描述

arXiv2024-12-12 更新2024-12-25 收录

下载链接：

https://github.com/LB0828/FtG

下载链接

链接失效反馈

官方服务：

资源简介：

FB15k-237是一个广泛使用的知识图谱补全数据集，主要用于评估知识图谱补全任务的性能。该数据集包含大量的三元组，旨在通过预测缺失的实体来完成知识图谱。数据集的创建基于真实世界的知识图谱，具有复杂的结构和大量的实体。通过将知识图谱补全任务转化为多选题格式，研究人员设计了一种新的方法来利用大型语言模型的能力，同时减少幻觉问题。该数据集在知识图谱补全任务中具有重要的应用价值，旨在解决知识图谱的不完整性问题。

FB15k-237 is a widely used knowledge graph completion dataset primarily designed to evaluate the performance of knowledge graph completion tasks. It contains a large number of triples, with the core objective of completing knowledge graphs by predicting missing entities. The dataset is constructed based on real-world knowledge graphs, featuring complex structures and a vast array of entities. By framing the knowledge graph completion task as a multiple-choice format, researchers have developed a novel method to leverage the capabilities of large language models while mitigating hallucination issues. This dataset holds significant application value in knowledge graph completion tasks, aiming to address the inherent incompleteness problem of knowledge graphs.

提供机构：

武汉大学计算机科学学院，阿里巴巴集团达摩院

创建时间：

2024-12-12

搜集汇总

数据集介绍

构建方式

FB15k-237数据集的构建基于Freebase知识库，通过筛选和过滤，保留了237种关系类型和14,541个实体。该数据集旨在提供一个更具挑战性的知识图谱补全任务，通过移除冗余关系和实体，确保数据集的多样性和复杂性。具体构建过程中，研究人员首先从Freebase中提取了原始三元组，随后通过去除高频关系和冗余实体，生成了最终的FB15k-237数据集。

特点

FB15k-237数据集的特点在于其高度的多样性和复杂性。相较于其他知识图谱数据集，FB15k-237通过移除冗余关系和实体，确保了任务更具挑战性。该数据集涵盖了广泛的领域知识，包括电影、体育、地理位置等，且每个实体和关系都具有丰富的语义信息。此外，FB15k-237的规模适中，既适合进行大规模实验，又能在合理的时间内完成模型训练和评估。

使用方法

FB15k-237数据集主要用于知识图谱补全任务的评估。研究人员可以通过该数据集测试模型在预测缺失三元组时的性能。具体使用时，通常将数据集划分为训练集、验证集和测试集，分别用于模型训练、超参数调优和最终性能评估。常见的评估指标包括Mean Reciprocal Rank (MRR)和Hits@N（N=1,3,10）。此外，FB15k-237还可用于研究大语言模型在知识图谱补全任务中的表现，探索如何结合结构信息和语义理解能力来提升模型性能。

背景与挑战

背景概述

FB15k-237数据集是知识图谱补全（KGC）领域中的一个重要基准数据集，最早由Toutanova和Chen于2015年提出。该数据集是从Freebase知识库中提取的一个子集，包含了14,541个实体和237种关系，广泛用于评估知识图谱补全模型的性能。知识图谱补全任务旨在通过已有的三元组推断出缺失的实体或关系，从而增强知识图谱的完整性。近年来，随着大语言模型（LLMs）在自然语言处理任务中的成功应用，研究者们开始探索如何将LLMs应用于知识图谱补全任务。然而，LLMs在处理KGC任务时表现不佳，主要原因是其难以处理大规模实体候选集以及无法有效利用知识图谱的结构信息。FB15k-237数据集的研究背景反映了知识图谱补全领域对更高效、更智能的补全方法的迫切需求。

当前挑战

FB15k-237数据集在知识图谱补全任务中面临多重挑战。首先，知识图谱补全任务本质上是一个分类问题，候选实体数量庞大，LLMs在处理大规模标签集时表现不佳，容易生成无效实体。其次，知识图谱的结构复杂且无序，LLMs难以有效理解和利用这些结构信息，导致其在KGC任务中的表现远低于传统的基于结构的方法。此外，LLMs在生成过程中容易出现幻觉问题，即生成与事实不符的内容，这进一步限制了其在KGC任务中的应用。为了解决这些挑战，研究者们提出了多种方法，如通过指令微调（instruction-tuning）来增强LLMs对知识图谱结构的理解，或通过过滤-生成范式（filter-then-generate）来缩小候选实体集，从而提升LLMs在KGC任务中的表现。然而，如何有效结合LLMs的语义理解能力与知识图谱的结构信息，仍然是当前研究中的一个重要挑战。

常用场景

经典使用场景

FB15k-237数据集广泛应用于知识图谱补全（KGC）任务中，特别是在评估模型在复杂关系推理和实体预测方面的性能。该数据集通过提供丰富的实体和关系三元组，帮助研究人员验证模型在推断缺失三元组时的准确性。经典的使用场景包括利用该数据集进行实体链接预测、关系分类以及知识图谱嵌入模型的训练与评估。

解决学术问题

FB15k-237数据集解决了知识图谱补全中的核心问题，即如何从已有的三元组中推断出缺失的实体或关系。通过提供大量的实体和关系对，该数据集为研究人员提供了一个标准化的测试平台，用于评估不同模型在处理复杂关系推理任务时的表现。其意义在于推动了知识图谱补全领域的发展，帮助研究者设计出更高效的算法和模型，以应对现实世界中知识图谱的不完整性问题。

衍生相关工作

FB15k-237数据集催生了许多经典的研究工作，如TransE、RotatE等知识图谱嵌入模型，这些模型通过将实体和关系映射到低维向量空间，实现了对知识图谱的高效推理。此外，基于该数据集的研究还推动了基于预训练语言模型（如BERT、GPT）的知识图谱补全方法的发展，如KG-BERT和KG-LLaMA。这些工作不仅提升了知识图谱补全的性能，还为知识图谱与自然语言处理的结合提供了新的思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集