five

linxy/ICEWS14|时间知识图谱数据集|复杂推理数据集

收藏
hugging_face2024-05-05 更新2024-06-12 收录
时间知识图谱
复杂推理
下载链接:
https://hf-mirror.com/datasets/linxy/ICEWS14
下载链接
链接失效反馈
资源简介:
该数据集专为时序知识图谱推理任务设计,基于广泛使用的基准ICEWS和GDELT构建。它首次在论文TFLEX: 时序特征-逻辑嵌入框架用于复杂时序知识图谱推理中被引入。数据集包含多种查询类型,并提供了详细的查询计数和平均答案计数统计。此外,它还提供特定于不同查询类型的子部分,增强了其在时序推理研究和发展中的实用性。
提供机构:
linxy
原始信息汇总

数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别: 图机器学习(Graph-ML)
  • 语言: 英语(en)
  • 数据集大小: 1M<n<10M

数据集内容

  • 构建基础: 基于ICEWS和GDELT,这两个数据集在时序知识图谱补全(TKGC)领域广泛使用。
  • 首次引入: 在论文"TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph"中首次介绍。

数据集结构

  • 数据加载示例: python

    dataset = load_dataset("linxy/ICEWS14", "all") len(dataset["train"]) + len(dataset["validation"]) + len(dataset["test"]) 1088769

  • 数据样本示例: python {query_name: Pe_aPt, definition: def Pe_aPt(e1, r1, e2, r2, e3): return Pe(e1, r1, after(Pt(e2, r2, e3))), query: [6291, 372, 5683, 283, 5264], answer: [1077], easy_answer: [], args: [e1, r1, e2, r2, e3]}

  • 元数据信息: python {dataset: ICEWS14, entity_count: 7128, relation_count: 230, timestamp_count: 365, valid_triples_count: 8941, test_triples_count: 8963, train_triples_count: 72826, triple_count: 90730, query_meta: {query_name: [...], queries_count: [...], avg_answers_count: [...], ...}, entity2idx: {name: [...], id: [...]}, relation2idx: {name: [...], id: [...]}, timestamp2idx: {name: [...], id: [...]},

数据集统计

  • 查询计数统计: 提供了不同查询类型在训练、验证和测试集中的数量。
  • 平均答案计数统计: 提供了不同查询类型的平均答案数量。

数据集使用

  • 数据加载: 支持加载完整数据集、元数据以及特定查询类型的子部分。
  • 数据解码: 使用元数据中的词汇表(entity2idx, relation2idx, timestamp2idx)将查询ID解码为文本。

联系方式

  • 联系人: Lin Xueyuan
  • 邮箱: linxy59@mail2.sysu.edu.cn

引用信息

  • 论文: TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph
  • 作者: Lin Xueyuan et al.
  • 会议: Thirty-seventh Conference on Neural Information Processing Systems
  • 年份: 2023
  • 引用格式: bibtex @inproceedings{ xueyuan2023tflex, title={TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph}, author={Lin Xueyuan and Haihong E and Chengjin Xu and Gengxian Zhou and Haoran Luo and Tianyi Hu and Fenglong Su and Ningyuan Li and Mingzhi Sun}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems}, year={2023}, url={https://openreview.net/forum?id=oaGdsgB18L} }
AI搜集汇总
数据集介绍
main_image_url
构建方式
ICEWS14数据集构建于广泛使用的基准数据集ICEWS和GDELT之上,旨在服务于时间知识图谱推理任务。该数据集首次在论文《TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph》中引入。其构建过程涉及对原始数据进行筛选、转换和标注,以生成适用于复杂推理任务的结构化数据。
特点
ICEWS14数据集具有显著的时间特征,涵盖了从2014年1月1日至2014年12月31日的365个时间戳。数据集包含7128个实体和230种关系,总计90730个三元组。此外,数据集提供了多种查询类型,如Pe、Pe2、Pt等,每种查询类型均有详细的训练、验证和测试集划分,便于模型评估和比较。
使用方法
使用ICEWS14数据集时,用户可通过调用load_dataset函数加载数据,并选择不同的子集进行训练、验证或测试。数据集提供了实体、关系和时间戳的词汇表,用户可通过这些词汇表将查询中的ID解码为文本。此外,数据集还支持按查询类型加载特定子集,方便用户进行细粒度的分析和实验。
背景与挑战
背景概述
ICEWS14数据集是基于ICEWS和GDELT两个广泛使用的时序知识图谱基准构建的,主要用于时序知识图谱推理任务。该数据集首次在论文《TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph》中引入,由Lin Xueyuan等人于2023年提出。其核心研究问题是如何在时序知识图谱中进行复杂推理,通过融合时间特征与逻辑嵌入,提升推理的准确性与效率。该数据集的引入对时序知识图谱领域的研究具有重要影响,为相关算法的发展提供了标准化的测试平台。
当前挑战
ICEWS14数据集在构建过程中面临多重挑战。首先,时序知识图谱的动态性使得数据集的构建需要处理大量随时间变化的关系和实体,这增加了数据处理的复杂性。其次,数据集需要涵盖多种查询类型,如实体查询、关系查询和时间戳查询,这要求数据集在设计时需具备高度的灵活性和扩展性。此外,数据集的规模较大,包含超过百万条记录,如何在保证数据质量的同时高效地进行数据处理和存储,也是一大挑战。最后,时序知识图谱推理任务本身具有较高的复杂性,如何在数据集中体现并解决这些复杂推理问题,是该数据集需要克服的关键难题。
常用场景
经典使用场景
在时间知识图谱推理任务中,ICEWS14数据集被广泛应用于复杂推理模型的训练与评估。该数据集通过提供丰富的实体、关系和时间戳信息,支持模型学习时间序列中的动态变化,从而实现对未来事件的预测和推理。
解决学术问题
ICEWS14数据集解决了时间知识图谱中复杂推理的学术难题,特别是在处理时间依赖性和动态变化方面。通过提供详尽的时间戳和关系数据,该数据集有助于研究者开发和验证新的推理算法,推动时间知识图谱领域的发展。
衍生相关工作
基于ICEWS14数据集,研究者们开发了多种复杂推理模型,如TFLEX框架,该框架通过结合时间特征和逻辑嵌入,显著提升了时间知识图谱的推理能力。此外,该数据集还激发了大量关于时间序列分析和动态知识图谱构建的研究工作。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

ChineseSafe

ChineseSafe是由南方科技大学统计与数据科学系创建的一个中文安全评估基准数据集,旨在评估大型语言模型在识别中文不安全内容方面的能力。该数据集包含205,034个样本,涵盖4个类别和10个子类别的安全问题,特别关注政治敏感性、色情内容和变体/同音词等新型安全问题。数据集通过从开源数据集和互联网资源中收集数据,经过数据清洗和去重处理,确保了数据集的高质量和多样性。ChineseSafe的应用领域主要集中在大型语言模型的安全评估,旨在帮助开发者和研究者提升模型在实际应用中的安全性。

arXiv 收录

网易云音乐数据集

该数据集包含了网易云音乐平台上的歌手信息、歌曲信息和歌单信息,数据通过爬虫技术获取并整理成CSV格式,用于音乐数据挖掘和推荐系统构建。

github 收录