linxy/GDELT

Name: linxy/GDELT
Creator: linxy
Published: 2024-05-05 13:54:58
License: 暂无描述

Hugging Face2024-05-05 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/linxy/GDELT

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于时间知识图谱推理任务，基于ICEWS和GDELT这两个广泛使用的基准数据集。数据集首次在论文《TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph》中引入。数据集包含训练、验证和测试集，总共有22,117,475个样本。每个样本包含查询名称、定义、查询、答案等信息。数据集的元信息包括实体、关系和时间戳的词汇表，可以通过加载元信息来解码查询ID为文本。

提供机构：

linxy

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 图机器学习（Graph-ML）
语言: 英语（en）
数据集大小: 10M<n<100M

数据集内容

构建基础: 基于ICEWS和GDELT，这两个数据集在时间知识图谱补全（TKGC）领域广泛使用。
首次引入: 在论文"TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph"中首次介绍。

数据集使用

加载数据集: 使用load_dataset函数加载，支持不同类型的数据集，如完整数据集和元数据集。
数据集示例: 包含查询、定义、答案和参数等信息。
元数据: 提供实体、关系和时间戳的索引信息，用于将查询ID解码为文本。

数据集统计

查询统计: 提供不同查询类型的训练、验证和测试集的统计信息。
平均答案数量: 显示每个查询在不同数据集和数据子集中的平均答案数量。

联系方式与引用

联系人: Lin Xueyuan（linxy59@mail2.sysu.edu.cn）
引用信息: 建议引用论文"TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph"。

许可证

许可证详情: 数据集遵循Apache License 2.0。

搜集汇总

数据集介绍

构建方式

linxy/GDELT数据集是基于ICEWS和GDELT两大广泛使用的基准数据集构建的，专门用于时间知识图谱推理任务。该数据集首次在论文《TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph》中提出，旨在支持复杂的时间知识图谱推理研究。数据集的构建过程涉及对原始数据的深度处理和结构化，以确保其适用于高级的时间推理任务。

特点

linxy/GDELT数据集的特点在于其大规模和高复杂性，包含超过2200万条训练、验证和测试数据。数据集涵盖了多种查询类型，如Pe、Pe2、Pt等，每种查询类型都有其独特的逻辑结构和推理需求。此外，数据集还提供了详细的元信息，包括实体、关系和时间戳的词汇表，便于研究者进行深入分析和模型训练。

使用方法

使用linxy/GDELT数据集时，首先通过`load_dataset`函数加载数据集，可以选择加载全部数据或特定查询类型的数据。数据集中每个查询都包含查询名称、定义、查询参数和答案等信息。研究者可以通过提供的元信息词汇表将查询中的ID解码为具体的实体、关系或时间戳名称，从而进行进一步的分析和模型训练。此外，数据集还支持按查询类型加载子集，便于针对特定任务进行定制化研究。

背景与挑战

背景概述

GDELT数据集是Lin Xueyuan等人于2023年提出的，旨在支持时序知识图谱推理任务的研究。该数据集基于ICEWS和GDELT两大广泛使用的基准数据集构建，首次在论文《TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph》中引入。GDELT数据集的核心研究问题在于如何通过时序特征与逻辑嵌入框架，解决复杂时序知识图谱推理中的挑战。该数据集的发布为时序知识图谱领域的研究提供了重要的数据支持，推动了该领域的技术进步。

当前挑战

GDELT数据集在构建和应用过程中面临多重挑战。首先，时序知识图谱推理任务本身具有高度复杂性，涉及时间维度的动态变化和实体关系的复杂交互，这对模型的推理能力提出了极高要求。其次，数据集的构建过程中，如何从原始数据中提取有效的时序特征并确保数据的准确性和一致性，是一个技术难点。此外，GDELT数据集的规模庞大（包含超过2200万条数据），如何在保证数据质量的同时高效处理和分析这些数据，也是研究人员需要克服的挑战。

常用场景

经典使用场景

GDELT数据集广泛应用于时间知识图谱推理任务中，特别是在处理复杂的时间序列数据时表现出色。该数据集通过提供大量的时间戳、实体和关系数据，支持研究者进行时间推理模型的训练和验证。其经典使用场景包括时间序列预测、事件关系推理以及时间知识图谱的构建与优化。

衍生相关工作

基于GDELT数据集，研究者提出了多种时间知识图谱推理模型，如TFLEX框架。这些模型通过结合时间特征和逻辑推理，显著提升了时间知识图谱的推理能力。此外，GDELT数据集还催生了一系列相关研究，包括时间序列预测、事件关系建模以及时间知识图谱的优化算法，推动了时间推理领域的进一步发展。

数据集最近研究