CODEX

Name: CODEX
Creator: 密歇根大学
Published: 2020-10-06 17:10:10
License: 暂无描述

arXiv2020-10-06 更新2024-06-21 收录

下载链接：

https://bit.ly/2EPbrJs

下载链接

链接失效反馈

官方服务：

资源简介：

CODEX数据集是由密歇根大学的Tara Safavi和Danai Koutra开发的，旨在改进现有的知识图谱完成基准。该数据集从Wikidata和Wikipedia提取，包含三个不同大小和结构的知识图谱，涵盖多语言实体和关系描述，以及数以万计的硬负例。CODEX数据集特别适用于评估模型在处理多样的、可解释的内容和更复杂的链接预测任务上的表现。此外，数据集还包含了详细的逻辑关系模式分析和基准测试实验，以支持知识图谱完成方法的进一步发展和评估。

The CODEX dataset was developed by Tara Safavi and Danai Koutra from the University of Michigan to advance existing knowledge graph completion benchmarks. Extracted from Wikidata and Wikipedia, this dataset includes three knowledge graphs with distinct sizes and structures, covering multilingual entity and relation descriptions as well as tens of thousands of hard negative samples. The CODEX dataset is specifically designed to evaluate model performance on handling diverse, interpretable content and more complex link prediction tasks. Furthermore, the dataset contains detailed logical relation pattern analyses and benchmark experiments to support the further development and evaluation of knowledge graph completion methods.

提供机构：

密歇根大学

创建时间：

2020-09-17

搜集汇总

数据集介绍

构建方式

CODEX数据集通过从Wikidata和Wikipedia中提取知识图谱构建而成，涵盖了多个领域的内容。数据集包括三个不同规模的知识图谱，分别为CODEX-S、CODEX-M和CODEX-L，分别对应小型、中型和大型图谱。每个图谱都包含了实体、关系以及多语言的标签和描述信息。此外，CODEX还引入了经过人工验证的‘硬负样本’，这些样本在逻辑上是合理的，但被验证为错误的。为了减少训练和测试集之间的泄露，数据集去除了逆向关系，并确保验证集和测试集中的实体和关系在训练集中出现过。

使用方法

CODEX数据集可用于知识图谱补全任务中的链接预测和三元组分类。在链接预测任务中，模型需要根据给定的头实体和关系，预测尾实体，或根据头实体和尾实体预测关系。三元组分类任务则要求模型判断给定的三元组是否为真。为了充分利用CODEX的多语言信息，研究者可以结合知识图谱结构和文本信息进行联合学习。此外，CODEX还提供了预训练模型和代码，方便研究者进行基准测试和模型开发。

背景与挑战

背景概述

CODEX数据集是由密歇根大学的Tara Safavi和Danai Koutra团队于2020年推出的，旨在为知识图谱补全（KGC）领域提供一个全面且具有挑战性的基准。该数据集从Wikidata和Wikipedia中提取，包含三个不同规模和结构的知识图谱，涵盖多语言实体和关系的描述，并包含数万个经过验证的负样本三元组。CODEX的推出填补了现有KGC基准的不足，特别是针对Freebase数据集的质量问题，提供了更加多样化和可解释的内容，推动了知识图谱补全领域的研究进展。

当前挑战

CODEX数据集在构建过程中面临多项挑战。首先，知识图谱补全领域的现有基准数据集（如Freebase）存在质量问题，如训练集与测试集的泄露问题，导致模型评估的可靠性受到质疑。其次，构建过程中需要处理多语言数据，确保实体和关系的描述在不同语言中的覆盖率和准确性。此外，生成高质量的负样本三元组也是一个挑战，传统的随机负采样方法难以生成具有实际意义的负样本，导致模型在评估时的表现过于简单。CODEX通过手动验证负样本，提升了数据集的难度和评估的有效性。

常用场景

经典使用场景

CODEX数据集的经典使用场景主要集中在知识图谱补全（Knowledge Graph Completion, KGC）任务中。通过提供多语言实体描述、关系类型以及经过验证的负样本，CODEX被广泛用于链接预测和三元组分类任务。其多样的知识图谱结构和丰富的辅助信息使得模型能够在复杂的推理任务中表现出色，尤其是在处理多跳推理和多语言知识融合时。

解决学术问题

CODEX数据集解决了现有知识图谱补全基准数据集的诸多问题，如数据质量不佳、训练与测试集泄露以及关系模式过于简单等。通过引入多语言描述和手动验证的负样本，CODEX显著提升了数据集的难度和多样性，使得模型在处理复杂关系推理时更具挑战性。这为研究者提供了一个更为可靠的基准，推动了知识图谱补全领域的进一步发展。

实际应用

在实际应用中，CODEX数据集可用于构建和优化知识图谱补全系统，广泛应用于智能问答、推荐系统、语义搜索等领域。其多语言特性和丰富的实体描述使得系统能够更好地理解跨语言知识，提升多语言环境下的推理能力。此外，CODEX的负样本设计也为模型在实际应用中的鲁棒性提供了保障，特别是在处理模糊或错误信息时。

数据集最近研究