five

FB15k-237, YAGO3-10, LitWD48K|知识图谱数据集|链接预测数据集

收藏
arXiv2024-07-26 更新2024-07-27 收录
知识图谱
链接预测
下载链接:
https://github.com/SmartDataAnalytics/LiteralE/tree/master/data
下载链接
链接失效反馈
资源简介:
本文涉及的三个数据集FB15k-237、YAGO3-10和LitWD48K,主要用于知识图谱中的链接预测任务,特别是评估模型如何利用数值文字信息。这些数据集通过从更大的源知识图谱中丰富标准链接预测数据集而创建,包含数值属性信息。数据集的创建旨在通过引入数值文字来增强模型对关系三元组的预测能力,特别是在科学知识图谱和制造过程等领域的应用中,这些领域存储了大量数值数据。
提供机构:
比勒费尔德大学,CITEC,灵感1号,33619,比勒费尔德,德国
创建时间:
2024-07-26
AI搜集汇总
数据集介绍
main_image_url
构建方式
FB15k-237, YAGO3-10, LitWD48K 是由 Moritz Blum 等人提出的用于链接预测的数据集。这些数据集通过在现有的知识图谱数据集中添加数值字面量信息来构建,以评估链接预测模型对数值字面量信息的利用能力。为了确保数据集中的数值字面量信息对预测任务的相关性,研究者们提出了一种半合成数据集构建方法,通过引入一个预测函数 h,使得模型只有在利用数值字面量信息的情况下才能成功预测关系三元组。此外,为了进一步探究现有数据集中数值字面量信息对链接预测的影响,研究者们还提出了一系列数据集消融策略,通过移除数据集中的数值字面量信息或关系三元组,来评估模型性能的变化。
特点
FB15k-237, YAGO3-10, LitWD48K 数据集的特点在于它们包含了丰富的数值字面量信息,这使得这些数据集成为评估链接预测模型对数值字面量信息利用能力的重要基准。这些数据集通过在现有知识图谱数据集的基础上添加数值字面量信息来构建,以更好地理解模型如何利用数值字面量信息进行链接预测。此外,这些数据集的构建方法也保证了数值字面量信息与关系三元组的关联性,从而为链接预测任务提供了更全面的信息。
使用方法
FB15k-237, YAGO3-10, LitWD48K 数据集的使用方法如下:首先,研究者们可以基于这些数据集训练链接预测模型,并评估模型对数值字面量信息的利用能力。其次,为了进一步探究现有数据集中数值字面量信息对链接预测的影响,研究者们可以采用数据集消融策略,通过移除数据集中的数值字面量信息或关系三元组,来评估模型性能的变化。最后,研究者们可以利用这些数据集来开发新的链接预测模型,以提高模型对数值字面量信息的利用能力,从而提升链接预测的准确率。
背景与挑战
背景概述
在知识图谱(KGs)领域,链接预测(LP)是一个核心任务,它专注于预测实体之间的关系。Blum等人(2024年)的研究探讨了数值字面量在链接预测中的作用。他们提出了一种评估包含数值字面量的链接预测模型的方法,并提出了一个新的合成数据集,以更好地理解这些模型如何使用数值字面量。此外,他们还提出了数据集消融策略,以调查现有数据集中可能存在的问题。这项研究强调了在发布新模型和数据集时进行更广泛评估的必要性。
当前挑战
Blum等人的研究揭示了链接预测模型在利用数值字面量信息方面的不足。许多模型未能充分利用字面量信息,并且可能依赖于额外的参数来提高性能。此外,现有数据集中数值字面量的价值尚未得到充分证实,这给模型评估带来了挑战。此外,研究还表明,在减少关系三元组的情况下,数值字面量的整合并未带来显著的性能提升,这表明属性三元组可能对预测任务不相关或难以被模型利用。
常用场景
经典使用场景
FB15k-237, YAGO3-10, LitWD48K 等数据集主要用于知识图谱中的链接预测任务。这些数据集包含了大量的实体关系三元组和属性三元组,为链接预测模型提供了丰富的训练数据。例如,在 FB15k-237 数据集中,模型可以利用实体之间的关系和属性信息,预测实体间缺失的关系。这种场景下,数据集中的数值型属性信息对于模型的预测能力至关重要,因为它们提供了实体间的量化信息,有助于模型更好地理解实体之间的关系。
解决学术问题
这些数据集解决了知识图谱链接预测中存在的学术研究问题,即如何有效地利用数值型属性信息。传统的链接预测模型主要关注实体间的关系,而忽略了数值型属性信息。这些数据集的出现使得研究者可以评估和比较不同链接预测模型在处理数值型属性信息方面的能力,从而推动链接预测技术的发展。此外,这些数据集还为研究者提供了评估链接预测模型性能的标准,有助于提高链接预测模型的准确性和鲁棒性。
衍生相关工作
这些数据集衍生了许多相关的经典工作,例如 LiteralE、KBLN、MTKGNN 和 TransEA 等。这些工作扩展了传统的链接预测模型,使其能够有效地利用数值型属性信息。例如,LiteralE 通过添加一个可学习的参数化门控函数,将数值型属性信息融合到实体嵌入中,从而提高了链接预测模型的性能。KBLN 则通过结合关系、潜在和数值型属性特征,进一步提高了链接预测模型的性能。MTKGNN 则引入了一个神经网络,用于数值型属性值的回归预测,从而提高了链接预测模型的性能。TransEA 则通过学习一组函数,用于数值型属性值的回归预测,从而提高了链接预测模型的性能。这些工作的出现,推动了链接预测技术在处理数值型属性信息方面的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

Ansh007/Jellyfish-Image-Dataset

该数据集包含900张水母图像,分为六个不同的类别和物种:紫水母、月亮水母、桶水母、蓝水母、罗盘水母和狮鬃水母。这些图像可用于机器学习技术,以获得水母分类、物种识别和颜色分析的洞察。每个物种都有详细的描述,包括其特征和食物来源。此外,数据集还提供了使用案例,如水母分类、物种识别和颜色分析。

hugging_face 收录

Global Climate Risk Index (CRI)

全球气候风险指数(CRI)是一个评估各国气候变化相关风险的指数。该数据集提供了各国在特定年份内因极端天气事件(如洪水、干旱、风暴等)所遭受的经济损失、死亡人数以及受影响人口的数据。此外,还包括了各国应对气候变化的能力和脆弱性分析。

www.germanwatch.org 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录