five

WN18RR|知识图谱数据集|链接预测数据集

收藏
OpenDataLab2025-03-29 更新2024-05-09 收录
知识图谱
链接预测
下载链接:
https://opendatalab.org.cn/OpenDataLab/WN18RR
下载链接
链接失效反馈
资源简介:
WN18RR 是从 WN18 创建的链接预测数据集,WN18 是 WordNet 的子集。 WN18 由 18 个关系和 40,943 个实体组成。然而,许多文本三元组是通过从训练集中反转三元组获得的。因此,创建 WN18RR 数据集以确保评估数据集没有反比关系测试泄漏。总之,WN18RR 数据集包含 93,003 个三元组,具有 40,943 个实体和 11 种关系类型。
提供机构:
OpenDataLab
创建时间:
2022-08-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
WN18RR数据集是从WordNet 18数据集中提取并精炼而来,旨在解决原数据集中存在的逆向关系问题。构建过程中,首先对WordNet 18中的所有关系进行筛选,去除那些可以通过简单逆向关系推导出的关系对,从而确保数据集的复杂性和挑战性。随后,通过严格的统计分析和人工验证,确保每一条关系都具有独立性和不可逆性,最终形成了WN18RR数据集。
使用方法
WN18RR数据集主要用于知识图谱补全任务,研究者可以通过该数据集评估和比较不同模型的性能。使用时,首先将数据集划分为训练集、验证集和测试集,确保模型在不同数据子集上的表现一致。随后,研究者可以采用各种知识图谱补全算法,如TransE、RotatE等,对数据集进行训练和测试。通过分析模型在测试集上的表现,可以有效评估其在处理复杂关系和实体链接任务中的能力。
背景与挑战
背景概述
WN18RR数据集源自于WordNet,一个广泛应用于自然语言处理和知识图谱构建的词汇数据库。该数据集由Dettmers等人于2018年提出,旨在解决知识图谱补全任务中的逆关系问题。WN18RR通过移除原始WN18数据集中的逆关系,确保了关系路径的唯一性,从而提高了模型的泛化能力。这一改进使得WN18RR成为评估知识图谱嵌入模型性能的重要基准,尤其在处理复杂关系和多跳推理任务中表现出色。
当前挑战
尽管WN18RR在知识图谱补全任务中取得了显著进展,但其构建过程中仍面临诸多挑战。首先,移除逆关系虽然减少了冗余信息,但也可能导致某些重要关系的丢失,影响模型的完整性。其次,数据集的稀疏性问题依然存在,尤其是在处理长尾实体和关系时,模型的表现可能不尽如人意。此外,WN18RR的评估标准和方法仍需进一步完善,以确保不同模型之间的比较具有公平性和准确性。
发展历史
创建时间与更新
WN18RR数据集于2017年由Dettmers等人创建,旨在解决原始WN18数据集中存在的逆关系问题。该数据集在创建后未有官方更新记录。
重要里程碑
WN18RR的创建标志着知识图谱嵌入研究领域的一个重要转折点。原始的WN18数据集因逆关系问题导致模型过拟合,WN18RR通过移除这些逆关系,显著提升了模型的泛化能力。这一改进使得研究人员能够更准确地评估和比较不同的知识图谱嵌入方法,推动了该领域的技术进步。
当前发展情况
当前,WN18RR已成为知识图谱嵌入研究中的标准基准数据集之一。其在多个顶级会议和期刊上被广泛引用,为新方法的评估提供了可靠的基础。随着知识图谱技术的不断发展,WN18RR的影响力持续扩大,为研究人员提供了宝贵的资源,促进了知识图谱嵌入技术的创新与应用。
发展历程
  • WN18RR数据集首次发表,作为WN18数据集的改进版本,旨在解决原数据集中的逆关系问题,提升知识图谱嵌入模型的性能。
    2017年
  • WN18RR数据集在多个知识图谱嵌入研究中得到广泛应用,成为评估模型性能的标准数据集之一。
    2018年
  • WN18RR数据集被用于多个国际会议和期刊的论文中,进一步验证了其在知识图谱研究中的重要性。
    2019年
  • WN18RR数据集的改进版本开始出现,研究人员针对其局限性提出了新的数据集,推动了知识图谱领域的进一步发展。
    2020年
常用场景
经典使用场景
在知识图谱领域,WN18RR数据集被广泛用于关系抽取和链接预测任务。该数据集源自WordNet,经过去冗余处理,保留了高质量的三元组信息。研究者常利用WN18RR进行模型训练和评估,以验证其在复杂关系推理中的表现。通过分析实体间的多种关系,WN18RR为开发更精确的知识图谱推理算法提供了坚实的基础。
解决学术问题
WN18RR数据集解决了知识图谱中常见的冗余关系问题,为学术界提供了一个更为纯净和有效的研究平台。其去冗余处理显著提升了关系抽取和链接预测任务的准确性,推动了相关算法的创新与发展。此外,WN18RR还促进了跨领域知识融合的研究,为多源异构数据的整合提供了新的思路和方法。
实际应用
在实际应用中,WN18RR数据集被用于构建智能问答系统和推荐系统,提升了这些系统的知识推理能力和用户体验。例如,在医疗领域,WN18RR帮助构建了更为精准的疾病诊断模型,通过分析患者症状与疾病之间的关系,提供更准确的诊断建议。此外,在电子商务中,WN18RR也被用于优化商品推荐算法,通过理解用户与商品之间的复杂关系,提升推荐效果。
数据集最近研究
最新研究方向
在知识图谱领域,WN18RR数据集因其丰富的语义关系和复杂的结构,成为研究知识图谱补全和推理的重要资源。最新研究方向主要集中在利用图神经网络(GNNs)和变分自编码器(VAEs)等先进技术,提升对实体间隐含关系的挖掘能力。这些方法通过捕捉实体间的多跳关系,显著提高了预测的准确性和鲁棒性。此外,研究者们还关注于跨领域知识融合,通过引入外部知识库,增强模型的泛化能力和解释性。这些前沿研究不仅推动了知识图谱技术的发展,也为智能问答、推荐系统等应用提供了强有力的支持。
相关研究论文
  • 1
    Convolutional 2D Knowledge Graph EmbeddingsUniversity of Cambridge · 2018年
  • 2
    RotatE: Knowledge Graph Embedding by Relational Rotation in Complex SpaceUniversity of Science and Technology of China · 2019年
  • 3
    A Re-evaluation of Knowledge Graph Completion MethodsUniversity of Cambridge · 2020年
  • 4
    InteractE: Improving Convolution-based Knowledge Graph Embeddings by Increasing Feature InteractionsIndian Institute of Technology Madras · 2020年
  • 5
    SimplE Embedding for Link Prediction in Knowledge GraphsUniversity of Alberta · 2018年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

VQA

我们提出了自由形式和开放式视觉问答 (VQA) 的任务。给定图像和关于图像的自然语言问题,任务是提供准确的自然语言答案。反映许多现实世界的场景,例如帮助视障人士,问题和答案都是开放式的。视觉问题有选择地针对图像的不同区域,包括背景细节和底层上下文。因此,与生成通用图像说明的系统相比,在 VQA 上取得成功的系统通常需要对图像和复杂推理有更详细的理解。此外,VQA 适合自动评估,因为许多开放式答案仅包含几个单词或一组封闭的答案,可以以多项选择的形式提供。我们提供了一个数据集包含 100,000 的图像和问题并讨论它提供的信息。提供了许多 VQA 基线,并与人类表现进行了比较。

OpenDataLab 收录

大学生运动和体质健康数据集(2014-2023)

《大学生运动与体质健康数据集(2014-2023)》涵盖了大学生群体在运动能力、基础身体形态、身体机能及身体素质等多个方面的关键基础数据。该数据集的采集时间跨度为2014年至2023年,样本采集自全国34个省级行政区域,共计123281名大学生参与,平均年龄为20.53岁。建立大学生运动和体质健康数据集可以准确把握学生体质健康的整体水平和变化趋势,了解大学生运动和体质健康状况,对指导个性化健康干预、优化体育教育资源配置、支持促进科学研究以及提高公众健康意识等均具有重要意义。

国家人口健康科学数据中心 收录