JF17kHCQA 和 M-FB15k-HCQA
收藏arXiv2025-04-23 更新2025-04-25 收录
下载链接:
http://arxiv.org/abs/2504.16537v1
下载链接
链接失效反馈官方服务:
资源简介:
JF17kHCQA和M-FB15k-HCQA是两个用于复杂查询回答的数据集,由香港科技大学计算机科学与工程系的研究人员创建。这两个数据集包含多种查询类型,包括逻辑运算如投影、否定、合取和析取等。数据集的具体大小、数据量和tokens数等详细信息没有在文中给出。它们旨在用于解决知识超图上的复杂查询问题,为模型训练和评估提供基准。
JF17kHCQA and M-FB15k-HCQA are two datasets for complex query answering, created by researchers from the Department of Computer Science and Engineering at the Hong Kong University of Science and Technology. These datasets cover multiple query types, including logical operations such as projection, negation, conjunction, and disjunction. Specific details such as dataset size, data volume, and token count are not provided in the relevant literature. They are intended to serve as benchmarks for model training and evaluation when solving complex query problems over knowledge hypergraphs.
提供机构:
香港科技大学计算机科学与工程系
创建时间:
2025-04-23
搜集汇总
数据集介绍

构建方式
在知识超图(Knowledge Hypergraph, KHG)领域,为了弥补现有复杂查询应答(CQA)研究的不足,JF17kHCQA和M-FB15k-HCQA数据集通过精心设计的采样算法构建而成。该算法以知识超图中的任意节点为根答案,通过随机选择超边确定关系类型及其邻居节点,进而递归采样投影、否定、联合或交集等逻辑操作。特别地,采样过程中考虑了变量节点在不同子查询中的位置差异,确保查询结构的多样性和真实性。数据集覆盖14种查询类型,包括投影、否定、联合和交集等基本逻辑操作,为知识超图上的复杂查询应答任务提供了全面且具有挑战性的基准。
特点
JF17kHCQA和M-FB15k-HCQA数据集在知识超图复杂查询应答领域具有显著特点。首先,数据集突破了传统二元关系知识图谱的限制,支持n元超边结构的查询,更贴近真实世界数据的复杂性。其次,数据集包含多样化的查询类型,如1P、2P、3P等投影查询,以及2I、3I等交集查询和2IN、3IN等含否定的复杂查询,全面覆盖了知识超图上可能存在的逻辑操作。此外,数据集的查询结构既支持操作树表示,也支持查询图表示,为不同模型提供了灵活的输入形式。这些特点使得该数据集成为评估模型在知识超图上复杂推理能力的理想选择。
使用方法
使用JF17kHCQA和M-FB15k-HCQA数据集时,研究者可采用两阶段方法进行复杂查询应答。首先,将查询表示为操作树或查询图形式,其中操作树节点对应投影、否定、联合或交集等逻辑操作。然后,利用如LKHGT等专用模型进行处理:投影编码器负责处理原子超边中的变量预测,逻辑编码器则处理复杂逻辑操作。评估时采用平均倒数排名(MRR)指标,排除简单答案后计算硬答案的排名。为测试模型泛化能力,建议在训练时排除部分查询类型(如3P、3IN等),在测试时评估模型对这些未见查询类型的表现。这种使用方法能够全面评估模型在知识超图上的复杂推理能力和泛化性能。
背景与挑战
背景概述
JF17kHCQA和M-FB15k-HCQA是面向知识超图(Knowledge Hypergraph, KHG)的复杂查询应答(Complex Query Answering, CQA)数据集,由香港科技大学的Hong Ting Tsang等人于2025年提出。传统知识图谱(KG)以二元关系为主,难以准确表达现实世界中多元关系的复杂性。为填补这一空白,研究团队基于JF17k和M-FB15k两个经典超图数据集构建了这两个新数据集,支持包含投影、否定、合取和析取等逻辑操作的多样化查询类型。该研究首次将CQA任务从二元关系扩展到多元关系场景,提出的Logical Knowledge Hypergraph Transformer(LKHGT)模型通过两阶段编码架构实现了知识超图上的存在性一阶逻辑查询,推动了知识表示与推理领域的发展。
当前挑战
知识超图复杂查询应答面临双重挑战:在领域层面,传统基于二元关系的模型难以处理多元事实的语义表达,例如合作者关系中的多作者平等贡献问题;超图结构中的变长关系编码和位置敏感特性也增加了逻辑运算的复杂性。在构建层面,数据采样需兼顾多元关系的拓扑约束与查询类型的多样性,例如算法需动态处理变量在超边中的位置差异;此外,查询操作树的迭代编码导致时间复杂度从O(1)升至O(n),而类型感知偏置(TAB)机制要求预训练所有可能的令牌交互组合,这对模型的计算效率和泛化能力提出了更高要求。
常用场景
经典使用场景
在知识超图(Knowledge Hypergraph)领域,JF17kHCQA和M-FB15k-HCQA数据集被广泛应用于复杂查询应答(Complex Query Answering, CQA)任务。这些数据集特别适用于处理包含多元关系(n-ary relations)的查询,例如涉及合取、析取、否定和投影等逻辑操作的多跳推理。通过构建有序超边(ordered hyperedges),这些数据集能够更准确地模拟现实世界中实体间的复杂交互关系,为研究者提供了评估模型在多元关系推理任务上性能的标准基准。
衍生相关工作
基于JF17kHCQA和M-FB15k-HCQA数据集,研究者们提出了一系列创新性工作。例如,Logical Knowledge Hypergraph Transformer (LKHGT) 通过两阶段Transformer架构实现了对知识超图中复杂查询的高效应答。此外,这些数据集还催生了诸如NQE和LSGT等基线模型,它们在超关系图(hyper-relational graphs)和有序超边设置下的性能评估中发挥了重要作用。这些衍生工作进一步推动了知识超图推理领域的技术进步,为后续研究奠定了坚实基础。
数据集最近研究
最新研究方向
近年来,知识超图(Knowledge Hypergraphs, KHG)在复杂查询回答(Complex Query Answering, CQA)领域引起了广泛关注。传统知识图谱(KG)主要基于二元关系,难以准确表达现实世界中复杂的多元关系。知识超图通过引入超边(hyperedge)来建模多元关系,从而更贴近真实数据的分布。JF17kHCQA和M-FB15k-HCQA作为新兴的知识超图数据集,填补了多元关系复杂查询回答任务的空白。这些数据集不仅包含传统的投影查询,还涵盖了否定、合取和析取等逻辑操作,为研究多元关系下的复杂推理提供了重要资源。前沿研究主要集中在基于Transformer的模型设计,如Logical Knowledge Hypergraph Transformer (LKHGT),该模型通过两阶段编码器结构(投影编码器和逻辑编码器)有效处理多元关系查询,并在实验中展现出优异的性能。此外,知识超图的研究还涉及逻辑推理的泛化能力,特别是在分布外查询类型上的表现,为知识表示和推理领域开辟了新的研究方向。
相关研究论文
- 1Transformers for Complex Query Answering over Knowledge Hypergraphs香港科技大学计算机科学与工程系 · 2025年
以上内容由遇见数据集搜集并总结生成



