linxy/ICEWS14|时间知识图谱数据集|复杂推理数据集
收藏数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 图机器学习(Graph-ML)
- 语言: 英语(en)
- 数据集大小: 1M<n<10M
数据集内容
- 构建基础: 基于ICEWS和GDELT,这两个数据集在时序知识图谱补全(TKGC)领域广泛使用。
- 首次引入: 在论文"TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph"中首次介绍。
数据集结构
-
数据加载示例: python
dataset = load_dataset("linxy/ICEWS14", "all") len(dataset["train"]) + len(dataset["validation"]) + len(dataset["test"]) 1088769
-
数据样本示例: python {query_name: Pe_aPt, definition: def Pe_aPt(e1, r1, e2, r2, e3): return Pe(e1, r1, after(Pt(e2, r2, e3))), query: [6291, 372, 5683, 283, 5264], answer: [1077], easy_answer: [], args: [e1, r1, e2, r2, e3]}
-
元数据信息: python {dataset: ICEWS14, entity_count: 7128, relation_count: 230, timestamp_count: 365, valid_triples_count: 8941, test_triples_count: 8963, train_triples_count: 72826, triple_count: 90730, query_meta: {query_name: [...], queries_count: [...], avg_answers_count: [...], ...}, entity2idx: {name: [...], id: [...]}, relation2idx: {name: [...], id: [...]}, timestamp2idx: {name: [...], id: [...]},
数据集统计
- 查询计数统计: 提供了不同查询类型在训练、验证和测试集中的数量。
- 平均答案计数统计: 提供了不同查询类型的平均答案数量。
数据集使用
- 数据加载: 支持加载完整数据集、元数据以及特定查询类型的子部分。
- 数据解码: 使用元数据中的词汇表(entity2idx, relation2idx, timestamp2idx)将查询ID解码为文本。
联系方式
- 联系人: Lin Xueyuan
- 邮箱: linxy59@mail2.sysu.edu.cn
引用信息
- 论文: TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph
- 作者: Lin Xueyuan et al.
- 会议: Thirty-seventh Conference on Neural Information Processing Systems
- 年份: 2023
- 引用格式: bibtex @inproceedings{ xueyuan2023tflex, title={TFLEX: Temporal Feature-Logic Embedding Framework for Complex Reasoning over Temporal Knowledge Graph}, author={Lin Xueyuan and Haihong E and Chengjin Xu and Gengxian Zhou and Haoran Luo and Tianyi Hu and Fenglong Su and Ningyuan Li and Mingzhi Sun}, booktitle={Thirty-seventh Conference on Neural Information Processing Systems}, year={2023}, url={https://openreview.net/forum?id=oaGdsgB18L} }

中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
ClinicalTrials.gov
Provides patients, family members, health care professionals, and members of the public easy access to information on clinical trials for a wide range of diseases and conditions.
OPEN DATA NETWORK 收录
Global Burden of Disease (GBD) Study
全球疾病负担研究(GBD)是一个综合性的全球健康评估项目,旨在量化全球、国家和地方层面的疾病、伤害和风险因素的负担。数据集包括各种健康指标,如死亡率、发病率、残疾调整生命年(DALYs)等,涵盖了多种疾病和伤害,以及多种风险因素。
ghdx.healthdata.org 收录
NIST Thermochemical Database
NIST Thermochemical Database(NIST热化学数据库)是一个包含大量热化学数据的数据集,涵盖了各种化学物质的热力学性质,如焓、熵、自由能等。该数据库由美国国家标准与技术研究院(NIST)维护,旨在为科学研究和工业应用提供准确的热化学数据。
webbook.nist.gov 收录
danaroth/whu_hi
WHU-Hi数据集(武汉无人机载高光谱图像)由武汉大学RSIDEA研究组收集和共享,可作为精确作物分类和高光谱图像分类研究的基准数据集。该数据集包含三个独立的无人机载高光谱数据集:WHU-Hi-LongKou、WHU-Hi-HanChuan和WHU-Hi-HongHu,均在中国湖北省的农业区域采集。这些数据集通过安装在无人机平台上的Headwall Nano-Hyperspec传感器获取,具有高空间分辨率(H2图像)。数据集预处理包括辐射校准和几何校正,使用仪器制造商提供的HyperSpec软件进行处理。每个数据集都包含了详细的采集时间、天气条件、传感器信息、飞行高度、图像尺寸、波段数量和空间分辨率等信息,并提供了不同作物类别的样本数量。
hugging_face 收录