qkg-primekg-entities-with-cui, qkg-relation-with-facts, qkg_qa_dataset, PrimeKg.csv, MRCONSO.RRF

github2026-04-28 更新2026-05-08 收录

下载链接：

https://github.com/HKAI-Sci/QKG

下载链接

链接失效反馈

官方服务：

资源简介：

1. `qkg-primekg-entities-with-cui` — 带有UMLS CUI注释的唯一PrimeKG实体。2. `qkg-relation-with-facts` — 患者群体特定的`ConstraintItem`注释（68,651个事实，覆盖四种适用性敏感的关系类型）。3. `qkg_qa_dataset` — 由`conditionKgTestAgentic.py`使用的N = 2,788 KG-grounded MedReason评估集。4. `PrimeKg.csv` — 来自官方PrimeKG发布。5. UMLS `MRCONSO.RRF` — 来自官方UMLS发布。

1. `qkg-primekg-entities-with-cui` — 带有统一医学语言系统（Unified Medical Language System，UMLS）概念唯一标识符（Concept Unique Identifier，CUI）注释的唯一PrimeKG实体集合。 2. `qkg-relation-with-facts` — 针对特定患者群体的`ConstraintItem`（约束项）注释数据集，共包含68,651条事实，覆盖四类适用性敏感型关系类型。 3. `qkg_qa_dataset` — 由`conditionKgTestAgentic.py`脚本使用的、样本量为2788的基于知识图谱（Knowledge Graph，KG）的医学推理（MedReason）评估数据集。 4. `PrimeKg.csv` — 源自官方正式发布的PrimeKG数据集。 5. UMLS `MRCONSO.RRF` — 源自官方正式发布的统一医学语言系统数据集文件。

创建时间：

2026-04-27

原始信息汇总

量子知识图谱（QKG）数据集概述

数据集简介

量子知识图谱（Quantum Knowledge Graph, QKG） 是一个专注于建模上下文依赖三元组有效性的知识图谱数据集。该数据集来自论文 Quantum Knowledge Graph: Modeling Context-Dependent Triplet Validity（arXiv: 2604.23972）。QKG 将三元组的二元真值替换为上下文函数 (F_{ au}(C))，在医学领域通过为知识图谱关系添加自然语言适用性条件（AVOID / RECOMMENDED / CAUTION 约束项注释）来实现。

数据集来源与构成

已发布在 HuggingFace 的数据集

qkg-primekg-entities-with-cui
- 地址：https://huggingface.co/datasets/HKAI-Sci/qkg-primekg-entities-with-cui
- 内容：标注了 UMLS CUI 的唯一 PrimeKG 实体。
qkg-relation-with-facts
- 地址：https://huggingface.co/datasets/HKAI-Sci/qkg-relation-with-facts
- 内容：患者群体特定的 ConstraintItem 注释，共 68,651 条事实，涵盖四种适用性敏感关系类型。
qkg_qa_dataset
- 地址：https://huggingface.co/datasets/HKAI-Sci/qkg_qa_dataset
- 内容：经过筛选的 N=2,788 条 MedReason 评估集，用于 conditionKgTestAgentic.py 评估。

上游依赖数据集

数据集	来源	说明
`PrimeKg.csv`	官方 PrimeKG 发布	加载至 `primeKG.relations` 集合
`MRCONSO.RRF`	官方 UMLS 发布	加载至 `umls_test.umls_strings_raw_test` 集合

数据存储结构

数据加载至 MongoDB 后的集合结构如下：

数据库	集合	来源
`primeKG`	`relations`	`PrimeKg.csv`
`primeKG`	`entities`	`qkg-primekg-entities-with-cui`
`primeKG`	`relation_with_facts`	`qkg-relation-with-facts`
`umls_test`	`umls_strings_raw_test`	`MRCONSO.RRF`

评估数据集规模

MedReason 评估集：N=2,788 条样本，用于评估 QKG 支持的验证效果。
在论文的评估中，QKG 支持的验证方法在正确率上优于无验证基线和无上下文匹配的知识图谱验证。

评估输出格式

评估运行结果以 JSONL 格式输出，每条记录包含以下字段：

sample_key：样本唯一标识
gold_answer：多选题正确答案
agentic_answer / agentic_correct / agentic_reasoning：推理-验证循环后的最终答案
num_turns / num_tool_calls / tool_calls / conversation：ReAct 循环追踪
llm_stats / elapsed_s：LLM 使用统计和运行时间
patient_context / hook_log / compression_log：包含患者上下文时的输出
reasoner_answer / reasoner_correct / final_answer / final_correct / validation_report：泄漏分类所需的字段

许可证信息

各数据集遵循其上游来源的许可证：
- PrimeKG 遵循原始 PrimeKG 许可证
- UMLS 受 UMLS Metathesaurus 许可证约束
- HuggingFace 上发布的数据集携带各自许可证

引用信息

论文：Quantum Knowledge Graph: Modeling Context-Dependent Triplet Validity
链接：https://arxiv.org/pdf/2604.23972

搜集汇总

数据集介绍

构建方式

在生物医学知识图谱领域，传统三元组被视为全局有效，然而现实中三元组的有效性往往依赖于特定上下文。为此，本研究提出了量子知识图谱（QKG）这一创新框架，通过为每个三元组赋予一个上下文相关的有效性函数来替代二元真值。数据集构建基于PrimeKG和UMLS两大上游资源，首先从PrimeKG中提取实体与关系，利用UMLS Metathesaurus为实体标注统一医学语言系统概念唯一标识符，形成实体注释集qkg-primekg-entities-with-cui。随后，针对四种对上下文敏感的关系类型，以自然语言适用性条件（如“避免”、“推荐”、“谨慎”等约束项注释）增强知识图谱关系，构建了包含68,651条事实的患者群体特定约束项注释集qkg-relation-with-facts。最后，精心筛选出由2,788个样本组成的qkg_qa_dataset评估集，用于测试推理器-验证器循环的性能。

特点

该数据集的核心特点在于其开创性地将上下文依赖性与知识图谱三元组有效性相结合，突破了传统知识图谱全局真值的局限。通过引入自然语言适用性条件作为上下文约束，数据集能够精确刻画特定患者群体或临床场景下医学关系的有效性变化。qkg-primekg-entities-with-cui提供了与UMLS标准术语体系对齐的实体标识，确保了跨数据源的一致性。qkg-relation-with-facts则系统性地涵盖了四种关键关系类型，每一条事实都附有具体的适用性标注，形成了一个高度结构化的上下文增强知识库。qkg_qa_dataset作为评估基准，包含详尽的答案、推理过程和验证记录，支持对推理器与验证器性能的精细分析。此外，数据集还附带了泄漏分类结果，为评估模型泛化能力提供了重要参考。

使用方法

使用该数据集首先需要配置Python 3.11环境并安装依赖，随后复制配置文件并编辑其中MongoDB连接信息、文件路径及大语言模型后端参数。数据加载通过mongoimport命令和Python脚本将各数据集导入MongoDB的指定集合中，包括primeKG数据库下的relations、entities、relation_with_facts集合以及umls_test数据库下的umls_strings_raw_test集合。评估运行通过主脚本conditionKgTestAgentic.py进行，支持无患者上下文、带QKG上下文匹配、单样本详细模式等多种运行方式，输出为JSONL格式的日志文件，记录样本标识、参考答案、模型最终答案、推理过程、工具调用轨迹及性能统计等字段。若要复现论文分析，可基于验证器运行的日志文件，运行配对McNemar检验脚本和泄漏分类脚本，生成显著性结果和分类统计，并通过绘图脚本生成论文中的各类可视化图表。

背景与挑战

背景概述

量子知识图谱（Quantum Knowledge Graph, QKG）由王垚、耿子旭、严骏等研究者于2026年提出，旨在解决传统知识图谱中三元组全局有效性假设与医学领域三元组有效性依赖于具体临床情境之间的矛盾。该数据集以PrimeKG和UMLS为上游资源，通过标注68,651条患者群体特定的约束条件事实，构建了涵盖4种敏感性关系类型的上下文感知知识图谱，并衍生出包含2,788个样本的MedReason评估集。其在评测中相较于无验证器基线及缺乏上下文匹配的KG验证方法展现出显著优势，为生物医学知识推理提供了新的范式。

当前挑战

该数据集面临的挑战包括：一是医学知识图谱中三元组的有效性具有高度上下文依赖性，例如同一药物在不同患者群体中的适用性可能截然不同，传统全局有效性假设难以满足精准医疗需求。二是在构建过程中，需将自然语言约束条件（如AVOID、RECOMMENDED、CAUTION）与原始KG关系进行对齐，涉及大规模实体映射（如PrimeKG实体与UMLS概念唯一标识符的匹配），以及68,651条事实的标注质量保障。三是评估集需避免数据泄露，即在验证器使用的上下文信息与推理任务间的信息重叠，为此论文设计了专门的正则表达式与LLM重标注两阶段泄漏分类流程。

常用场景

经典使用场景

在生物医学知识图谱研究中，传统知识图谱假定三元组具有全局有效性，然而临床决策的可靠与否往往取决于患者群体特征、用药阶段等上下文因素。量子知识图谱（QKG）数据集正是为应对这一挑战而生，其经典使用场景是构建并评估一个上下文感知的推理-验证管线。具体而言，研究者利用qkg-relation-with-facts中68,651条带有约束类型（如AVOID/RECOMMENDED/CAUTION）的医事实体关系注释，结合PrimeKG与UMLS实体映射，在包含2,788个样本的MedReason评估集上对比有无患者上下文匹配的验证效果。该场景的核心在于量化上下文信号对三元组有效性判别的提升幅度，从而检验QKG框架是否比传统无验证器或忽略上下文匹配的KG验证方法具有统计显著的性能优势。

解决学术问题

QKG数据集核心解决了知识图谱中三元组语境依赖有效性的建模与验证这一长期被忽视的学术问题。传统方法将每个三元组视为普适真理，但临床环境中“药物A可用于疾病B”的抗扰声明需结合患者过敏史、肝肾功能等上下文才能判定其推荐、禁忌或慎用。该数据集的引入使得研究者能够系统性地量化语境条件对知识推理正确率的影响，并通过配对McNemar检验等统计手段证明QKG增强的验证器相较于基线方法在准确率上具有显著提升。其学术意义在于提出了一个可复现的评估框架，将知识图谱的可靠性从静态全局假设推向动态上下文适配的新范式，对临床决策支持系统的可信度研究具有奠基性价值。

衍生相关工作

基于QKG数据集已衍生出多项经典工作。原论文提出的Reasoner-Validator双阶段管线成为后续研究的基础框架，研究者在该数据集上系统比较了Haiku与Qwen两种大语言模型作为推理器与验证器时的性能差异，并开发了面向上下文匹配的压缩日志分析工具。此外，泄漏分类二阶段方法（正则表达式初筛+大语言模型重标定）被复用于评估上下文引入带来的信息污染问题，其L-1到L-5的五级分类体系为判断KG增强问答中样本有效性提供了标准化工具。未来可预见的方向包括：将约束类型扩展至时间依赖关系、融合多模态上下文（如影像与基因数据）的验证机制，以及基于该数据集微调专用的上下文感知知识图谱嵌入模型。

以上内容由遇见数据集搜集并总结生成