five

linxy/ICEWS14

收藏
Hugging Face2024-05-05 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/linxy/ICEWS14
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于时间知识图谱推理任务。它基于ICEWS和GDELT构建,这两个是时间知识图谱补全(TKGC)中广泛使用的基准。该数据集首次在论文《TFLEX: 用于时间知识图谱复杂推理的时间特征-逻辑嵌入框架》中提出。数据集中包含多种查询类型(如Pe、Pe2、e2i等),每条样本包括查询名称、定义、查询ID列表、答案ID列表、简易答案列表以及参数列表(参数中e开头表示实体,r开头表示关系,t开头表示时间戳)。此外,还提供了词汇表(实体、关系、时间戳到ID的映射)以及各查询类型的统计信息(样本数量、平均答案数等)。数据许可证为Apache-2.0。

This dataset is used for temporal knowledge graph reasoning tasks. It is built upon ICEWS and GDELT, which are widely used benchmarks in temporal knowledge graph completion (TKGC). The dataset was first introduced in the paper "TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph". It contains multiple query types (e.g., Pe, Pe2, e2i, etc.), and each sample includes a query name, a definition, a list of query IDs, a list of answer IDs, a list of easy answers, and a list of arguments (where arguments starting with e denote entities, r denotes relations, and t denotes timestamps). Additionally, the dataset provides vocabularies (mapping from entities, relations, and timestamps to IDs) as well as statistics for each query type (e.g., number of samples, average number of answers). The data license is Apache-2.0.
提供机构:
linxy
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 图机器学习(Graph-ML)
  • 语言: 英语(en)
  • 数据集大小: 1M<n<10M

数据集内容

  • 构建基础: 基于ICEWS和GDELT,这两个数据集在时序知识图谱补全(TKGC)领域广泛使用。
  • 首次引入: 在论文"TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph"中首次介绍。

数据集结构

  • 数据加载示例: python

    dataset = load_dataset("linxy/ICEWS14", "all") len(dataset["train"]) + len(dataset["validation"]) + len(dataset["test"]) 1088769

  • 数据样本示例: python {query_name: Pe_aPt, definition: def Pe_aPt(e1, r1, e2, r2, e3): return Pe(e1, r1, after(Pt(e2, r2, e3))), query: [6291, 372, 5683, 283, 5264], answer: [1077], easy_answer: [], args: [e1, r1, e2, r2, e3]}

  • 元数据信息: python {dataset: ICEWS14, entity_count: 7128, relation_count: 230, timestamp_count: 365, valid_triples_count: 8941, test_triples_count: 8963, train_triples_count: 72826, triple_count: 90730, query_meta: {query_name: [...], queries_count: [...], avg_answers_count: [...], ...}, entity2idx: {name: [...], id: [...]}, relation2idx: {name: [...], id: [...]}, timestamp2idx: {name: [...], id: [...]},

数据集统计

  • 查询计数统计: 提供了不同查询类型在训练、验证和测试集中的数量。
  • 平均答案计数统计: 提供了不同查询类型的平均答案数量。

数据集使用

  • 数据加载: 支持加载完整数据集、元数据以及特定查询类型的子部分。
  • 数据解码: 使用元数据中的词汇表(entity2idx, relation2idx, timestamp2idx)将查询ID解码为文本。

联系方式

  • 联系人: Lin Xueyuan
  • 邮箱: linxy59@mail2.sysu.edu.cn

引用信息

  • 论文: TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph
  • 作者: Lin Xueyuan et al.
  • 会议: Thirty-seventh Conference on Neural Information Processing Systems
  • 年份: 2023
  • 引用格式: bibtex @inproceedings{ xueyuan2023tflex, title={TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph}, author={Lin Xueyuan and Haihong E and Chengjin Xu and Gengxian Zhou and Haoran Luo and Tianyi Hu and Fenglong Su and Ningyuan Li and Mingzhi Sun}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems}, year={2023}, url={https://openreview.net/forum?id=oaGdsgB18L} }
搜集汇总
数据集介绍
main_image_url
构建方式
ICEWS14数据集构建于广泛使用的基准数据集ICEWS和GDELT之上,旨在服务于时间知识图谱推理任务。该数据集首次在论文《TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph》中引入。其构建过程涉及对原始数据进行筛选、转换和标注,以生成适用于复杂推理任务的结构化数据。
特点
ICEWS14数据集具有显著的时间特征,涵盖了从2014年1月1日至2014年12月31日的365个时间戳。数据集包含7128个实体和230种关系,总计90730个三元组。此外,数据集提供了多种查询类型,如Pe、Pe2、Pt等,每种查询类型均有详细的训练、验证和测试集划分,便于模型评估和比较。
使用方法
使用ICEWS14数据集时,用户可通过调用load_dataset函数加载数据,并选择不同的子集进行训练、验证或测试。数据集提供了实体、关系和时间戳的词汇表,用户可通过这些词汇表将查询中的ID解码为文本。此外,数据集还支持按查询类型加载特定子集,方便用户进行细粒度的分析和实验。
背景与挑战
背景概述
ICEWS14数据集是基于ICEWS和GDELT两个广泛使用的时序知识图谱基准构建的,主要用于时序知识图谱推理任务。该数据集首次在论文《TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph》中引入,由Lin Xueyuan等人于2023年提出。其核心研究问题是如何在时序知识图谱中进行复杂推理,通过融合时间特征与逻辑嵌入,提升推理的准确性与效率。该数据集的引入对时序知识图谱领域的研究具有重要影响,为相关算法的发展提供了标准化的测试平台。
当前挑战
ICEWS14数据集在构建过程中面临多重挑战。首先,时序知识图谱的动态性使得数据集的构建需要处理大量随时间变化的关系和实体,这增加了数据处理的复杂性。其次,数据集需要涵盖多种查询类型,如实体查询、关系查询和时间戳查询,这要求数据集在设计时需具备高度的灵活性和扩展性。此外,数据集的规模较大,包含超过百万条记录,如何在保证数据质量的同时高效地进行数据处理和存储,也是一大挑战。最后,时序知识图谱推理任务本身具有较高的复杂性,如何在数据集中体现并解决这些复杂推理问题,是该数据集需要克服的关键难题。
常用场景
经典使用场景
在时间知识图谱推理任务中,ICEWS14数据集被广泛应用于复杂推理模型的训练与评估。该数据集通过提供丰富的实体、关系和时间戳信息,支持模型学习时间序列中的动态变化,从而实现对未来事件的预测和推理。
解决学术问题
ICEWS14数据集解决了时间知识图谱中复杂推理的学术难题,特别是在处理时间依赖性和动态变化方面。通过提供详尽的时间戳和关系数据,该数据集有助于研究者开发和验证新的推理算法,推动时间知识图谱领域的发展。
衍生相关工作
基于ICEWS14数据集,研究者们开发了多种复杂推理模型,如TFLEX框架,该框架通过结合时间特征和逻辑嵌入,显著提升了时间知识图谱的推理能力。此外,该数据集还激发了大量关于时间序列分析和动态知识图谱构建的研究工作。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作