COUNTRIES-S1

github2024-03-19 更新2024-05-31 收录

下载链接：

https://github.com/simonepri/datasets-knowledge-embedding

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是在《On Approximate Reasoning Capabilities of Low-Rank Vector Spaces》一文中引入的。数据集包含271个实体，2种关系类型，总共1159条边，其中训练集1111条边，验证集24条边，测试集24条边。

本数据集源自《关于低秩向量空间近似推理能力的研究》一文，其中涵盖了271个实体，并定义了两种关系类型，总计包含1159条边。具体而言，训练集、验证集与测试集分别包含1111条、24条及24条边。

创建时间：

2019-06-20

原始信息汇总

数据集概述

数据集名称

datasets-knowledge-embedding

数据集描述

这是一个收集了多种用于知识嵌入研究中的常见数据集的项目。该项目不仅收集了这些数据集，还对它们进行了格式标准化，以便于在新研究中进行评估使用。

数据集格式

每个数据集都包含18个文件，主要分为两种格式：文本格式和ID格式。这些文件包括：

edges_as_text_{train,valid,test}.tsv：包含数据集的三个分割，实体和关系以文本形式表示。
edges_as_id_{train,valid,test}.tsv：包含数据集的三个分割，实体和关系以数字ID表示。
map_entity_id_to_text.tsv 和 map_relation_id_to_text.tsv：分别包含实体和关系的ID到文本的映射。
frequency_entities_{all,train,valid,test}.tsv 和 frequency_relations_{all,train,valid,test}.tsv：分别包含实体和关系在不同分割中的频率。

数据集列表

COUNTRIES-S1
- 实体数：271
- 关系类型：2
- 边数：1159
- 训练边数：1111
- 验证边数：24
- 测试边数：24
COUNTRIES-S2
- 实体数：271
- 关系类型：2
- 边数：1111
- 训练边数：1063
- 验证边数：24
- 测试边数：24
COUNTRIES-S3
- 实体数：271
- 关系类型：2
- 边数：1033
- 训练边数：985
- 验证边数：24
- 测试边数：24
FB15K
- 实体数：14951
- 关系类型：1345
- 边数：592213
- 训练边数：483142
- 验证边数：50000
- 测试边数：59071
FB15K-237
- 实体数：14541
- 关系类型：237
- 边数：310116
- 训练边数：272115
- 验证边数：17535
- 测试边数：20466
KINSHIP
- 实体数：104
- 关系类型：25
- 边数：10686
- 训练边数：8544
- 验证边数：1068
- 测试边数：1074
NATIONS
- 实体数：14
- 关系类型：55
- 边数：1992
- 训练边数：1592
- 验证边数：199
- 测试边数：201
UMLS
- 实体数：135
- 关系类型：46
- 边数：6529
- 训练边数：5216
- 验证边数：652
- 测试边数：661
WN18
- 实体数：41105
- 关系类型：18
- 边数：151442
- 训练边数：141442
- 验证边数：5000
- 测试边数：5000
WN18RR
- 实体数：41105
- 关系类型：11
- 边数：93003
- 训练边数：86835
- 验证边数：3034
- 测试边数：3134
YAGO3-10
- 实体数：123182
- 关系类型：37
- 边数：1089040
- 训练边数：1079040
- 验证边数：5000
- 测试边数：5000

数据集下载

所有数据集均可从项目的发布页面下载。每个数据集都提供了文本和ID两种格式的下载链接。

搜集汇总

数据集介绍

构建方式

COUNTRIES-S1数据集的构建源于知识嵌入领域的研究，旨在评估低秩向量空间的近似推理能力。该数据集通过从公开的ConvE项目中提取并标准化，包含271个实体和2种关系类型，共计1159条边。数据被划分为训练集、验证集和测试集，分别包含1111、24和24条边。每条边以三元组形式表示，涵盖实体和关系的文本及数值ID映射。

使用方法

使用COUNTRIES-S1数据集时，首先下载包含文本和数值ID格式的数据文件。通过加载`edges_as_text_*.tsv`或`edges_as_id_*.tsv`文件，获取训练、验证和测试集的三元组数据。利用`map_entity_id_to_text.tsv`和`map_relation_id_to_text.tsv`文件，可将数值ID映射回文本表示。数据集可直接用于知识嵌入模型的训练、验证和测试，支持多种嵌入算法的实验与评估。

背景与挑战

背景概述

COUNTRIES-S1数据集作为知识嵌入领域的重要资源，首次发布于2015年，由相关研究团队在《On Approximate Reasoning Capabilities of Low-Rank Vector Spaces》一文中提出。该数据集的核心研究问题在于探索低秩向量空间在近似推理能力上的表现，特别是在处理地理实体及其关系时的有效性。数据集包含271个实体和2种关系类型，共计1159条边，分为训练集、验证集和测试集。其标准化格式和丰富的数据量为知识图谱嵌入模型的评估提供了重要支持，推动了知识表示学习领域的发展。

当前挑战

COUNTRIES-S1数据集在应用过程中面临多重挑战。首先，其规模相对较小，实体和关系的数量有限，可能限制了模型在复杂场景下的泛化能力。其次，数据集中仅包含两种关系类型，难以全面反映真实世界中的多维度关系，这对模型的表达能力提出了更高要求。在构建过程中，数据集的原始来源不明，且依赖于第三方平台的复制版本，可能导致数据完整性和一致性的潜在问题。此外，如何在小规模数据集上实现高效的知识嵌入，同时避免过拟合，仍是该领域亟待解决的技术难题。

常用场景

经典使用场景

COUNTRIES-S1数据集在知识嵌入领域中被广泛用于评估和验证低秩向量空间中的近似推理能力。该数据集通过提供国家之间的地理关系，为研究者提供了一个标准化的测试平台，用于验证知识图谱嵌入模型在处理复杂关系时的性能。

解决学术问题

COUNTRIES-S1数据集解决了知识嵌入领域中关于低秩向量空间推理能力的核心问题。通过提供清晰的国家间关系数据，研究者能够深入探讨如何利用低维向量空间有效表示和推理复杂关系，从而推动了知识图谱嵌入算法的进一步发展。

实际应用

在实际应用中，COUNTRIES-S1数据集被用于构建和优化地理信息系统中的知识图谱。通过嵌入国家间的地理关系，该数据集帮助提升了地理信息检索、推荐系统以及智能问答系统的准确性和效率，为相关领域的实际应用提供了有力支持。

数据集最近研究