OntologyRAG

Name: OntologyRAG
Creator: 英国IQVIA，Real World Solution，Applied AI Science，剑桥
Published: 2025-02-26 17:56:10
License: 暂无描述

arXiv2025-02-26 更新2025-02-28 收录

下载链接：

https://github.com/iqvianlp/ontologyRAG

下载链接

链接失效反馈

官方服务：

资源简介：

OntologyRAG是一个结合了知识图谱和大型语言模型的代码映射方法。数据集包含了500个ICD-9-CM到ICD-10-CM的映射实例，用于评估和改进生物医学代码映射的质量和效率。该数据集通过提取、转换和加载（ETL）过程构建知识图谱，并使用NL2SPARQL模块将自然语言问题转换为SPARQL查询，以从知识图谱数据库中检索信息。数据集适用于生物医学领域的代码映射任务，旨在提高编码专家映射代码的速度和准确性。

OntologyRAG is a code mapping approach that integrates knowledge graphs and large language models. This dataset includes 500 mapping instances from ICD-9-CM to ICD-10-CM, which are utilized to evaluate and optimize the quality and efficiency of biomedical code mapping. It constructs a knowledge graph through the Extract-Transform-Load (ETL) workflow, and employs the NL2SPARQL module to convert natural language questions into SPARQL queries for retrieving information from the knowledge graph database. Tailored for code mapping tasks in the biomedical domain, this dataset aims to enhance the speed and accuracy of code mapping performed by coding experts.

提供机构：

英国IQVIA，Real World Solution，Applied AI Science，剑桥

创建时间：

2025-02-26

搜集汇总

数据集介绍

构建方式

OntologyRAG 数据集的构建方式是将生物医学本体源文件转换为标准格式，生成未加精炼的映射，并将信息作为知识图谱存储在数据库中。该方法利用大型语言模型（LLMs）的上下文推理能力，通过注入本体知识图谱，使编码专家能够更好地执行代码映射。

特点

OntologyRAG 数据集的特点是能够利用本体知识图谱的归纳偏差，通过大型语言模型（LLMs）进行上下文学习（ICL）。该数据集可以生成可解释的结果集，包括预测推理和映射接近度评估。此外，该方法不需要重新训练 LLMs，因为所有本体更新都可以通过更新知识图谱来反映。

使用方法

使用 OntologyRAG 数据集的方法包括三个部分：索引、检索和推理。在索引过程中，将本体信息（如代码描述、关系和本体之间的未加精炼映射）存储为 RDF 知识图谱。在检索过程中，使用 SPARQL 查询从数据库中检索相关信息。在推理过程中，根据语义相似性和逻辑推理，对检索到的结果进行映射接近度评估和总结生成。

背景与挑战

背景概述

生物医药本体论在定义和关联生物医药实体概念与关系方面发挥着至关重要的作用。OntologyRAG数据集的研究背景在于，现有的生物医药代码映射过程往往依赖于本体领域微调的语言模型（LMs）自动生成未精炼的映射列表，随后由编码专家进行手动选择或修正。由于LMs通常提供的映射建议缺乏推理或支持证据，编码专家仍需验证每个候选者，从而使得代码映射过程耗时且劳动密集。为了解决这一问题，研究人员提出了OntologyRAG，一种利用本体知识图谱进行上下文学习（ICL）的检索增强生成（RAG）方法。该方法将LLMs与知识图谱联系起来，处理问题并生成可解释的结果集，包括预测推理和映射邻近度评估。此外，该方法无需重新训练LLMs，因为所有本体更新都可以通过更新知识图谱来实现。实验结果表明，该方法在提高代码映射质量和效率方面具有潜力。

当前挑战

OntologyRAG数据集面临的挑战包括：1) LMs在解决领域问题，特别是生物医学代码映射方面的挑战；2) 构建过程中遇到的挑战。为了解决这些挑战，研究人员提出了一个定制的本体增强检索增强生成流程（OntologyRAG），该流程利用LLMs的上下文推理能力，通过融合本体知识图谱来帮助编码专家执行更好的代码映射。该流程包括三个部分：索引、检索和推理。通过评估专家整理的金数据集，研究人员展示了OntologyRAG在提高代码映射质量和效率方面的潜力。

常用场景

经典使用场景

OntologyRAG 数据集最经典的使用场景是在生物医药代码映射领域。生物医药本体论对于结构化和形式化领域特定的信息表示至关重要。生物医药代码映射的任务是识别不同本体论中概念的相似性或等价性。OntologyRAG 通过利用本体论知识图谱的归纳偏差，在大语言模型中进行上下文学习，实现了更高效和更准确的代码映射。

衍生相关工作

OntologyRAG 数据集的提出，衍生了大量的相关工作。例如，一些研究工作通过将本体论知识图谱与其他人工智能技术相结合，实现了更高效和更准确的生物医药代码映射。此外，还有一些研究工作通过改进 OntologyRAG 的模型结构和算法，提高了代码映射的质量和效率。这些相关工作进一步推动了生物医药代码映射领域的发展。

数据集最近研究