five

FB15k-237, YAGO3-10, LitWD48K

收藏
arXiv2024-07-26 更新2024-07-27 收录
下载链接:
https://github.com/SmartDataAnalytics/LiteralE/tree/master/data
下载链接
链接失效反馈
官方服务:
资源简介:
本文涉及的三个数据集FB15k-237、YAGO3-10和LitWD48K,主要用于知识图谱中的链接预测任务,特别是评估模型如何利用数值文字信息。这些数据集通过从更大的源知识图谱中丰富标准链接预测数据集而创建,包含数值属性信息。数据集的创建旨在通过引入数值文字来增强模型对关系三元组的预测能力,特别是在科学知识图谱和制造过程等领域的应用中,这些领域存储了大量数值数据。

The three datasets involved in this study, namely FB15k-237, YAGO3-10 and LitWD48K, are primarily utilized for link prediction tasks in knowledge graphs, specifically for assessing how models leverage numerical literal information. These datasets are constructed by enriching standard link prediction datasets with data from larger source knowledge graphs, and incorporate numerical attribute information. The datasets were developed to enhance models' predictive performance on relational triples by introducing numerical literals, particularly for applications in domains such as scientific knowledge graphs and manufacturing processes, which store large volumes of numerical data.
提供机构:
比勒费尔德大学,CITEC,灵感1号,33619,比勒费尔德,德国
创建时间:
2024-07-26
搜集汇总
数据集介绍
main_image_url
构建方式
FB15k-237, YAGO3-10, LitWD48K 是由 Moritz Blum 等人提出的用于链接预测的数据集。这些数据集通过在现有的知识图谱数据集中添加数值字面量信息来构建,以评估链接预测模型对数值字面量信息的利用能力。为了确保数据集中的数值字面量信息对预测任务的相关性,研究者们提出了一种半合成数据集构建方法,通过引入一个预测函数 h,使得模型只有在利用数值字面量信息的情况下才能成功预测关系三元组。此外,为了进一步探究现有数据集中数值字面量信息对链接预测的影响,研究者们还提出了一系列数据集消融策略,通过移除数据集中的数值字面量信息或关系三元组,来评估模型性能的变化。
特点
FB15k-237, YAGO3-10, LitWD48K 数据集的特点在于它们包含了丰富的数值字面量信息,这使得这些数据集成为评估链接预测模型对数值字面量信息利用能力的重要基准。这些数据集通过在现有知识图谱数据集的基础上添加数值字面量信息来构建,以更好地理解模型如何利用数值字面量信息进行链接预测。此外,这些数据集的构建方法也保证了数值字面量信息与关系三元组的关联性,从而为链接预测任务提供了更全面的信息。
使用方法
FB15k-237, YAGO3-10, LitWD48K 数据集的使用方法如下:首先,研究者们可以基于这些数据集训练链接预测模型,并评估模型对数值字面量信息的利用能力。其次,为了进一步探究现有数据集中数值字面量信息对链接预测的影响,研究者们可以采用数据集消融策略,通过移除数据集中的数值字面量信息或关系三元组,来评估模型性能的变化。最后,研究者们可以利用这些数据集来开发新的链接预测模型,以提高模型对数值字面量信息的利用能力,从而提升链接预测的准确率。
背景与挑战
背景概述
在知识图谱(KGs)领域,链接预测(LP)是一个核心任务,它专注于预测实体之间的关系。Blum等人(2024年)的研究探讨了数值字面量在链接预测中的作用。他们提出了一种评估包含数值字面量的链接预测模型的方法,并提出了一个新的合成数据集,以更好地理解这些模型如何使用数值字面量。此外,他们还提出了数据集消融策略,以调查现有数据集中可能存在的问题。这项研究强调了在发布新模型和数据集时进行更广泛评估的必要性。
当前挑战
Blum等人的研究揭示了链接预测模型在利用数值字面量信息方面的不足。许多模型未能充分利用字面量信息,并且可能依赖于额外的参数来提高性能。此外,现有数据集中数值字面量的价值尚未得到充分证实,这给模型评估带来了挑战。此外,研究还表明,在减少关系三元组的情况下,数值字面量的整合并未带来显著的性能提升,这表明属性三元组可能对预测任务不相关或难以被模型利用。
常用场景
经典使用场景
FB15k-237, YAGO3-10, LitWD48K 等数据集主要用于知识图谱中的链接预测任务。这些数据集包含了大量的实体关系三元组和属性三元组,为链接预测模型提供了丰富的训练数据。例如,在 FB15k-237 数据集中,模型可以利用实体之间的关系和属性信息,预测实体间缺失的关系。这种场景下,数据集中的数值型属性信息对于模型的预测能力至关重要,因为它们提供了实体间的量化信息,有助于模型更好地理解实体之间的关系。
解决学术问题
这些数据集解决了知识图谱链接预测中存在的学术研究问题,即如何有效地利用数值型属性信息。传统的链接预测模型主要关注实体间的关系,而忽略了数值型属性信息。这些数据集的出现使得研究者可以评估和比较不同链接预测模型在处理数值型属性信息方面的能力,从而推动链接预测技术的发展。此外,这些数据集还为研究者提供了评估链接预测模型性能的标准,有助于提高链接预测模型的准确性和鲁棒性。
衍生相关工作
这些数据集衍生了许多相关的经典工作,例如 LiteralE、KBLN、MTKGNN 和 TransEA 等。这些工作扩展了传统的链接预测模型,使其能够有效地利用数值型属性信息。例如,LiteralE 通过添加一个可学习的参数化门控函数,将数值型属性信息融合到实体嵌入中,从而提高了链接预测模型的性能。KBLN 则通过结合关系、潜在和数值型属性特征,进一步提高了链接预测模型的性能。MTKGNN 则引入了一个神经网络,用于数值型属性值的回归预测,从而提高了链接预测模型的性能。TransEA 则通过学习一组函数,用于数值型属性值的回归预测,从而提高了链接预测模型的性能。这些工作的出现,推动了链接预测技术在处理数值型属性信息方面的进一步发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作