five

WN18RR

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/WN18RR
下载链接
链接失效反馈
官方服务:
资源简介:
WN18RR 是从 WN18 创建的链接预测数据集,WN18 是 WordNet 的子集。 WN18 由 18 个关系和 40,943 个实体组成。然而,许多文本三元组是通过从训练集中反转三元组获得的。因此,创建 WN18RR 数据集以确保评估数据集没有反比关系测试泄漏。总之,WN18RR 数据集包含 93,003 个三元组,具有 40,943 个实体和 11 种关系类型。

WN18RR is a link prediction dataset derived from WN18, which is a subset of WordNet. WN18 consists of 18 relations and 40,943 entities. However, a large number of textual triples were generated by inverting triples from the training set, resulting in test leakage of inverse relations. To address this issue, the WN18RR dataset was developed to ensure that the evaluation split contains no test leakage stemming from inverse relations. Overall, the WN18RR dataset contains 93,003 triples, with 40,943 entities and 11 distinct relation types.
提供机构:
OpenDataLab
创建时间:
2022-08-19
搜集汇总
数据集介绍
main_image_url
构建方式
WN18RR数据集是从WordNet 18数据集中提取并精炼而来,旨在解决原数据集中存在的逆向关系问题。构建过程中,首先对WordNet 18中的所有关系进行筛选,去除那些可以通过简单逆向关系推导出的关系对,从而确保数据集的复杂性和挑战性。随后,通过严格的统计分析和人工验证,确保每一条关系都具有独立性和不可逆性,最终形成了WN18RR数据集。
使用方法
WN18RR数据集主要用于知识图谱补全任务,研究者可以通过该数据集评估和比较不同模型的性能。使用时,首先将数据集划分为训练集、验证集和测试集,确保模型在不同数据子集上的表现一致。随后,研究者可以采用各种知识图谱补全算法,如TransE、RotatE等,对数据集进行训练和测试。通过分析模型在测试集上的表现,可以有效评估其在处理复杂关系和实体链接任务中的能力。
背景与挑战
背景概述
WN18RR数据集源自于WordNet,一个广泛应用于自然语言处理和知识图谱构建的词汇数据库。该数据集由Dettmers等人于2018年提出,旨在解决知识图谱补全任务中的逆关系问题。WN18RR通过移除原始WN18数据集中的逆关系,确保了关系路径的唯一性,从而提高了模型的泛化能力。这一改进使得WN18RR成为评估知识图谱嵌入模型性能的重要基准,尤其在处理复杂关系和多跳推理任务中表现出色。
当前挑战
尽管WN18RR在知识图谱补全任务中取得了显著进展,但其构建过程中仍面临诸多挑战。首先,移除逆关系虽然减少了冗余信息,但也可能导致某些重要关系的丢失,影响模型的完整性。其次,数据集的稀疏性问题依然存在,尤其是在处理长尾实体和关系时,模型的表现可能不尽如人意。此外,WN18RR的评估标准和方法仍需进一步完善,以确保不同模型之间的比较具有公平性和准确性。
发展历史
创建时间与更新
WN18RR数据集于2017年由Dettmers等人创建,旨在解决原始WN18数据集中存在的逆关系问题。该数据集在创建后未有官方更新记录。
重要里程碑
WN18RR的创建标志着知识图谱嵌入研究领域的一个重要转折点。原始的WN18数据集因逆关系问题导致模型过拟合,WN18RR通过移除这些逆关系,显著提升了模型的泛化能力。这一改进使得研究人员能够更准确地评估和比较不同的知识图谱嵌入方法,推动了该领域的技术进步。
当前发展情况
当前,WN18RR已成为知识图谱嵌入研究中的标准基准数据集之一。其在多个顶级会议和期刊上被广泛引用,为新方法的评估提供了可靠的基础。随着知识图谱技术的不断发展,WN18RR的影响力持续扩大,为研究人员提供了宝贵的资源,促进了知识图谱嵌入技术的创新与应用。
发展历程
  • WN18RR数据集首次发表,作为WN18数据集的改进版本,旨在解决原数据集中的逆关系问题,提升知识图谱嵌入模型的性能。
    2017年
  • WN18RR数据集在多个知识图谱嵌入研究中得到广泛应用,成为评估模型性能的标准数据集之一。
    2018年
  • WN18RR数据集被用于多个国际会议和期刊的论文中,进一步验证了其在知识图谱研究中的重要性。
    2019年
  • WN18RR数据集的改进版本开始出现,研究人员针对其局限性提出了新的数据集,推动了知识图谱领域的进一步发展。
    2020年
常用场景
经典使用场景
在知识图谱领域,WN18RR数据集被广泛用于关系抽取和链接预测任务。该数据集源自WordNet,经过去冗余处理,保留了高质量的三元组信息。研究者常利用WN18RR进行模型训练和评估,以验证其在复杂关系推理中的表现。通过分析实体间的多种关系,WN18RR为开发更精确的知识图谱推理算法提供了坚实的基础。
解决学术问题
WN18RR数据集解决了知识图谱中常见的冗余关系问题,为学术界提供了一个更为纯净和有效的研究平台。其去冗余处理显著提升了关系抽取和链接预测任务的准确性,推动了相关算法的创新与发展。此外,WN18RR还促进了跨领域知识融合的研究,为多源异构数据的整合提供了新的思路和方法。
实际应用
在实际应用中,WN18RR数据集被用于构建智能问答系统和推荐系统,提升了这些系统的知识推理能力和用户体验。例如,在医疗领域,WN18RR帮助构建了更为精准的疾病诊断模型,通过分析患者症状与疾病之间的关系,提供更准确的诊断建议。此外,在电子商务中,WN18RR也被用于优化商品推荐算法,通过理解用户与商品之间的复杂关系,提升推荐效果。
数据集最近研究
最新研究方向
在知识图谱领域,WN18RR数据集因其丰富的语义关系和复杂的结构,成为研究知识图谱补全和推理的重要资源。最新研究方向主要集中在利用图神经网络(GNNs)和变分自编码器(VAEs)等先进技术,提升对实体间隐含关系的挖掘能力。这些方法通过捕捉实体间的多跳关系,显著提高了预测的准确性和鲁棒性。此外,研究者们还关注于跨领域知识融合,通过引入外部知识库,增强模型的泛化能力和解释性。这些前沿研究不仅推动了知识图谱技术的发展,也为智能问答、推荐系统等应用提供了强有力的支持。
相关研究论文
  • 1
    Convolutional 2D Knowledge Graph EmbeddingsUniversity of Cambridge · 2018年
  • 2
    RotatE: Knowledge Graph Embedding by Relational Rotation in Complex SpaceUniversity of Science and Technology of China · 2019年
  • 3
    A Re-evaluation of Knowledge Graph Completion MethodsUniversity of Cambridge · 2020年
  • 4
    InteractE: Improving Convolution-based Knowledge Graph Embeddings by Increasing Feature InteractionsIndian Institute of Technology Madras · 2020年
  • 5
    SimplE Embedding for Link Prediction in Knowledge GraphsUniversity of Alberta · 2018年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作