FB15k|知识图谱数据集|实体关系抽取数据集

OpenDataLab2025-04-05 更新2024-05-09 收录

知识图谱

实体关系抽取

下载链接：

https://opendatalab.org.cn/OpenDataLab/FB15k

下载链接

链接失效反馈

资源简介：

FB15K 数据集是 Freebase 数据库的一个子集，其中包含大约 15k 个具有 1,345 个不同关系的实体。该数据集通过反比关系遭受重大测试泄漏。通过对训练集中的三元组进行反转可以得到大量的测试三元组。

提供机构：

OpenDataLab

创建时间：

2022-03-17

AI搜集汇总

数据集介绍

构建方式

FB15k数据集源自Freebase，一个广泛使用的大型知识图谱。该数据集通过从Freebase中抽取14,951个实体和1,345个关系类型构建而成，包含592,213个三元组。构建过程中，数据集被划分为训练集、验证集和测试集，分别包含483,142、50,000和59,071个三元组，确保了数据集的完整性和可用性。

特点

FB15k数据集以其丰富的实体和关系类型著称，为知识图谱补全和链接预测提供了广泛的基础。其特点在于实体和关系的多样性，涵盖了多个领域，如人物、地点、组织等。此外，数据集的划分方式确保了模型训练和评估的独立性，有助于研究者进行有效的实验和比较。

使用方法

FB15k数据集主要用于知识图谱补全和链接预测任务。研究者可以通过加载训练集、验证集和测试集进行模型训练和评估。在训练过程中，模型学习实体和关系之间的潜在模式，以预测缺失的链接。验证集用于调整模型参数，测试集则用于最终评估模型的性能。通过这种方式，FB15k为知识图谱领域的研究提供了坚实的基础。

背景与挑战

背景概述

FB15k数据集，源自Freebase知识图谱，由Bordes等人在2013年提出，是知识表示学习领域的里程碑。该数据集包含了14,951个实体和1,345个关系，共计592,213个三元组。FB15k的发布极大地推动了知识图谱补全和推理任务的研究，为后续的模型如TransE、DistMult等提供了基准测试数据。其影响力不仅限于学术界，还对工业界的知识图谱构建和应用产生了深远影响。

当前挑战

尽管FB15k在知识表示学习领域具有重要地位，但其构建过程中也面临诸多挑战。首先，数据集的稀疏性问题显著，部分实体和关系的覆盖率较低，导致模型训练时的数据不均衡。其次，FB15k中的逆关系问题也引起了广泛关注，即某些关系与其逆关系在数据集中频繁出现，这可能导致模型学习到不正确的模式。此外，数据集的规模和复杂性也增加了模型训练和评估的难度，要求研究者开发更高效的算法和更强大的计算资源。

发展历史

创建时间与更新

FB15k数据集由Bordes等人在2013年创建，作为知识图谱嵌入研究的重要资源。该数据集基于Freebase知识库，包含了14,951个实体和1,345个关系。

重要里程碑

FB15k的发布标志着知识图谱嵌入技术研究的一个新起点。它首次将大规模知识图谱数据引入到机器学习领域，为后续的实体关系预测和知识图谱补全研究提供了基础。随着研究的深入，FB15k-237在2015年被提出，作为FB15k的改进版本，解决了原始数据集中存在的逆关系问题，进一步推动了知识图谱嵌入技术的发展。

当前发展情况

当前，FB15k及其衍生版本仍然是知识图谱嵌入研究中的重要基准数据集。它不仅被广泛应用于各种知识图谱补全算法的研究和评估，还激发了大量关于数据集质量和模型鲁棒性的讨论。随着深度学习和图神经网络技术的进步，FB15k系列数据集在推动知识图谱嵌入技术向更高效、更准确方向发展方面发挥了关键作用。

发展历程

FB15k数据集首次发表，作为Freebase知识图谱的子集，用于研究知识图谱嵌入和链接预测问题。
2011年
FB15k数据集在Bordes等人的研究中首次应用，该研究提出了TransE模型，显著推动了知识图谱嵌入技术的发展。
2013年
随着知识图谱研究的深入，FB15k数据集被广泛应用于多种知识图谱嵌入模型的评估和比较，成为该领域的重要基准数据集。
2015年
FB15k数据集的扩展版本FB15k-237发布，旨在解决原始数据集中存在的逆关系问题，进一步推动了知识图谱嵌入技术的研究。
2019年

常用场景

经典使用场景

在知识图谱领域，FB15k数据集被广泛用于关系抽取和实体链接任务。该数据集包含了从Freebase中提取的14,951个实体和1,345种关系，共计592,213个三元组。研究者常利用FB15k进行链接预测、关系推理和知识图谱补全等经典任务，以评估模型在处理复杂关系和大规模数据时的性能。

衍生相关工作

基于FB15k数据集，研究者们开发了多种扩展和改进版本，如FB15k-237和WN18RR。这些数据集通过减少冗余关系和增加逆关系，进一步提升了模型的泛化能力和推理性能。此外，FB15k还激发了大量关于知识图谱嵌入和推理的研究，推动了图神经网络和深度学习在知识图谱领域的应用。

数据集最近研究

相关研究论文

1
Translating Embeddings for Modeling Multi-relational DataUniversity of Cambridge · 2013年
2
Convolutional 2D Knowledge Graph EmbeddingsUniversity of Oxford · 2018年
3
RotatE: Knowledge Graph Embedding by Relational Rotation in Complex SpaceUniversity of Waterloo · 2019年
4
A Re-evaluation of Knowledge Graph Completion MethodsUniversity of California, Berkeley · 2020年
5
Learning Attention-based Embeddings for Relation Prediction in Knowledge GraphsUniversity of Cambridge · 2019年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集，包含来自605名患者的21,930对PET-CT图像，所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究，特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

豆瓣数据集

该数据集通过爬虫技术从豆瓣网站获取了48223条电影数据，并与movielens ml-latest数据集通过共同的imdb字段进行交集处理，最终得到15752条共同数据。数据存储格式为JSON，支持导入到MongoDB或其他数据库使用。

github 收录

UAV-VisLoc - 用于无人机视觉定位的大规模数据集

UAV-VisLoc数据集由北京邮电大学、中科院和香港城市大学联合构建，旨在解决无人机在失去全球导航卫星系统信号时的精确定位问题。该数据集涵盖了中国11个不同地点的无人机图像，捕获了多样化的地形特征，包括固定翼无人机和多地形无人机在不同高度和方向上拍摄的6742张图像以及11幅卫星地图。每张图像均附有经纬度、高度、拍摄日期和航向角等元数据，为模型的训练与测试提供了丰富多元的数据支持。UAV-VisLoc数据集用于支持无人机视觉定位任务，为无人机视觉定位任务提供了训练和测试样本，通过匹配无人机拍摄的地面向下视角图像与正射卫星地图，实现无人机的自主视觉定位。

github 收录