five

FB15k

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/FB15k
下载链接
链接失效反馈
官方服务:
资源简介:
FB15K 数据集是 Freebase 数据库的一个子集,其中包含大约 15k 个具有 1,345 个不同关系的实体。该数据集通过反比关系遭受重大测试泄漏。通过对训练集中的三元组进行反转可以得到大量的测试三元组。

The FB15K dataset is a subset of the Freebase database, which contains approximately 15k entities with 1,345 distinct relations. This dataset suffers from significant test leakage via inverse relations: a large number of test triples can be obtained by inverting triples in the training set.
提供机构:
OpenDataLab
创建时间:
2022-03-17
搜集汇总
数据集介绍
main_image_url
构建方式
FB15k数据集源自Freebase,一个广泛使用的大型知识图谱。该数据集通过从Freebase中抽取14,951个实体和1,345个关系类型构建而成,包含592,213个三元组。构建过程中,数据集被划分为训练集、验证集和测试集,分别包含483,142、50,000和59,071个三元组,确保了数据集的完整性和可用性。
特点
FB15k数据集以其丰富的实体和关系类型著称,为知识图谱补全和链接预测提供了广泛的基础。其特点在于实体和关系的多样性,涵盖了多个领域,如人物、地点、组织等。此外,数据集的划分方式确保了模型训练和评估的独立性,有助于研究者进行有效的实验和比较。
使用方法
FB15k数据集主要用于知识图谱补全和链接预测任务。研究者可以通过加载训练集、验证集和测试集进行模型训练和评估。在训练过程中,模型学习实体和关系之间的潜在模式,以预测缺失的链接。验证集用于调整模型参数,测试集则用于最终评估模型的性能。通过这种方式,FB15k为知识图谱领域的研究提供了坚实的基础。
背景与挑战
背景概述
FB15k数据集,源自Freebase知识图谱,由Bordes等人在2013年提出,是知识表示学习领域的里程碑。该数据集包含了14,951个实体和1,345个关系,共计592,213个三元组。FB15k的发布极大地推动了知识图谱补全和推理任务的研究,为后续的模型如TransE、DistMult等提供了基准测试数据。其影响力不仅限于学术界,还对工业界的知识图谱构建和应用产生了深远影响。
当前挑战
尽管FB15k在知识表示学习领域具有重要地位,但其构建过程中也面临诸多挑战。首先,数据集的稀疏性问题显著,部分实体和关系的覆盖率较低,导致模型训练时的数据不均衡。其次,FB15k中的逆关系问题也引起了广泛关注,即某些关系与其逆关系在数据集中频繁出现,这可能导致模型学习到不正确的模式。此外,数据集的规模和复杂性也增加了模型训练和评估的难度,要求研究者开发更高效的算法和更强大的计算资源。
发展历史
创建时间与更新
FB15k数据集由Bordes等人在2013年创建,作为知识图谱嵌入研究的重要资源。该数据集基于Freebase知识库,包含了14,951个实体和1,345个关系。
重要里程碑
FB15k的发布标志着知识图谱嵌入技术研究的一个新起点。它首次将大规模知识图谱数据引入到机器学习领域,为后续的实体关系预测和知识图谱补全研究提供了基础。随着研究的深入,FB15k-237在2015年被提出,作为FB15k的改进版本,解决了原始数据集中存在的逆关系问题,进一步推动了知识图谱嵌入技术的发展。
当前发展情况
当前,FB15k及其衍生版本仍然是知识图谱嵌入研究中的重要基准数据集。它不仅被广泛应用于各种知识图谱补全算法的研究和评估,还激发了大量关于数据集质量和模型鲁棒性的讨论。随着深度学习和图神经网络技术的进步,FB15k系列数据集在推动知识图谱嵌入技术向更高效、更准确方向发展方面发挥了关键作用。
发展历程
  • FB15k数据集首次发表,作为Freebase知识图谱的子集,用于研究知识图谱嵌入和链接预测问题。
    2011年
  • FB15k数据集在Bordes等人的研究中首次应用,该研究提出了TransE模型,显著推动了知识图谱嵌入技术的发展。
    2013年
  • 随着知识图谱研究的深入,FB15k数据集被广泛应用于多种知识图谱嵌入模型的评估和比较,成为该领域的重要基准数据集。
    2015年
  • FB15k数据集的扩展版本FB15k-237发布,旨在解决原始数据集中存在的逆关系问题,进一步推动了知识图谱嵌入技术的研究。
    2019年
常用场景
经典使用场景
在知识图谱领域,FB15k数据集被广泛用于关系抽取和实体链接任务。该数据集包含了从Freebase中提取的14,951个实体和1,345种关系,共计592,213个三元组。研究者常利用FB15k进行链接预测、关系推理和知识图谱补全等经典任务,以评估模型在处理复杂关系和大规模数据时的性能。
衍生相关工作
基于FB15k数据集,研究者们开发了多种扩展和改进版本,如FB15k-237和WN18RR。这些数据集通过减少冗余关系和增加逆关系,进一步提升了模型的泛化能力和推理性能。此外,FB15k还激发了大量关于知识图谱嵌入和推理的研究,推动了图神经网络和深度学习在知识图谱领域的应用。
数据集最近研究
最新研究方向
在知识图谱领域,FB15k数据集作为Freebase的子集,近年来成为研究知识表示学习和推理的热点。最新研究方向主要集中在利用深度学习技术提升知识图谱的补全和推理能力。例如,通过引入图神经网络(GNN)和变分自编码器(VAE),研究者们能够更有效地捕捉实体间的复杂关系,从而提高预测准确性。此外,跨领域知识融合和多模态数据集成也成为研究焦点,旨在增强知识图谱的泛化能力和应用范围。这些前沿研究不仅推动了知识图谱技术的发展,也为智能问答、推荐系统和语义搜索等应用提供了坚实基础。
相关研究论文
  • 1
    Translating Embeddings for Modeling Multi-relational DataUniversity of Cambridge · 2013年
  • 2
    Convolutional 2D Knowledge Graph EmbeddingsUniversity of Oxford · 2018年
  • 3
    RotatE: Knowledge Graph Embedding by Relational Rotation in Complex SpaceUniversity of Waterloo · 2019年
  • 4
    A Re-evaluation of Knowledge Graph Completion MethodsUniversity of California, Berkeley · 2020年
  • 5
    Learning Attention-based Embeddings for Relation Prediction in Knowledge GraphsUniversity of Cambridge · 2019年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作