RiTeK

github2026-04-11 更新2026-04-12 收录

下载链接：

https://github.com/ToneLi/Medical-Textual-KG-Reasoning-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

RiTeK是一个用于医疗文本知识图谱复杂推理的基准数据集，评估检索系统和大语言模型是否能够通过使用关系路径和文本实体描述来回答现实的医疗问题。

RiTeK is a benchmark dataset for complex reasoning over medical text knowledge graphs, which evaluates whether retrieval systems and Large Language Models (LLMs) can answer real-world medical questions by utilizing relational paths and textual entity descriptions.

创建时间：

2026-04-11

搜集汇总

数据集介绍

构建方式

在医疗知识图谱推理领域，RiTeK数据集的构建体现了对复杂医学问题求解的系统性探索。该数据集整合了三个核心子集：ADint、pharmKG与Prime，每个子集均基于其对应的医学知识图谱构建而成。构建过程中，研究者从原始医学知识库中提取结构化三元组，并融合实体文本描述，形成文本知识图谱。针对每个图谱，通过设计多样化的拓扑结构与关系模板，生成了覆盖多种推理模式的医学问题，并严格划分训练、验证与测试集，确保了评估的严谨性。

特点

RiTeK数据集在医学文本知识图谱推理基准中展现出鲜明的特色。其知识图谱不仅包含丰富的实体与关系类型，如ADint子集涵盖102种实体类型，更关键的是实现了高比例的文本描述覆盖，例如pharmKG子集的覆盖率高达95.61%，为模型理解语义提供了坚实基础。在问答数据方面，该数据集设计了多达六种不同的拓扑结构，并拥有较高的实例率，平均每个结构对应超过九个关系模板，从而全面挑战模型在路径推理与文本理解上的复合能力。

使用方法

为有效利用RiTeK数据集进行模型评估与研究，使用者需遵循其标准化的数据格式与评估流程。数据集以JSONL格式提供原始问答对与指令调优格式，知识图谱则以纯文本三元组形式存储。评估时，需准备包含问题ID与答案列表的标准预测文件，通过配套的评估脚本与黄金标准文件进行比对。该流程支持精确匹配与ROUGE等多种指标，并兼容多种基线模型的输出格式，为系统性地衡量检索系统与大语言模型在医学复杂推理任务上的性能提供了可靠框架。

背景与挑战

背景概述

在医学人工智能领域，如何让大型语言模型与结构化知识进行深度融合以实现复杂推理，一直是前沿研究的核心议题。RiTeK数据集应运而生，由美国多所顶尖高校与研究机构（包括康涅狄格大学、马萨诸塞大学阿默斯特分校、亚利桑那州立大学等）于2024年联合构建，并计划在ACL 2026 Findings会议上正式发布。该数据集旨在评估检索系统与大型语言模型能否通过结合关系路径与文本化实体描述，来回答现实世界中复杂的医学问题。其核心研究问题聚焦于医学文本知识图谱上的多跳推理能力，通过整合ADint、pharmKG和PrimeKG等多个高质量医学知识源，为模型提供了兼具丰富语义与复杂图结构的评估基准，显著推动了医学问答与知识图谱推理的交叉领域发展。

当前挑战

RiTeK数据集所针对的医学知识图谱问答任务，本身面临多重挑战：医学领域专业术语密集且语义复杂，要求模型具备深厚的领域知识理解能力；多跳推理问题需要模型在庞大的图谱中精准导航并整合分散信息，对检索与推理的协同提出了极高要求。在数据集构建过程中，挑战同样显著：如何从异构的医学知识源（如PrimeKG）中提取、对齐并构建高质量且覆盖率高的文本知识图谱是一项艰巨工程；确保问题涵盖多样化的拓扑结构（如6种不同模式）以全面评估模型泛化能力，需要精心的模式设计与数据平衡；此外，为实体与关系提供准确、全面的文本描述以支撑语义理解，也涉及大量的知识融合与质量控制工作。

常用场景

经典使用场景

在医学知识图谱与自然语言处理交叉领域，RiTeK数据集为评估复杂推理能力提供了基准。其经典使用场景集中于测试检索系统与大语言模型如何利用医学文本知识图谱中的关系路径和实体描述，来回答真实的医学问题。例如，模型需要从图谱中识别药物与疾病间的多重关联，或推断基因产物在特定病理过程中的作用，从而模拟临床决策支持中的多步推理过程。

衍生相关工作

围绕RiTeK数据集，已衍生出一系列经典的推理与检索方法。例如，Think-on-Graph方法使大语言模型能在知识图谱上进行交互式束搜索；G-retriever利用奖励收集斯坦纳树算法检索相关子图以增强生成；而KAR则通过知识感知的查询扩展来改善半结构化检索。这些工作共同推进了文本知识图谱上的复杂推理技术，并为后续研究提供了坚实的算法基础。

数据集最近研究