five

BODHI-M

收藏
Hugging Face2026-04-13 更新2026-04-14 收录
下载链接:
https://huggingface.co/datasets/ekacare/BODHI-M
下载链接
链接失效反馈
官方服务:
资源简介:
BODHI-M 是一个临床知识图谱,属于 BODHI(Bharat Ontology for Disease & Healthcare Informatics)项目的一部分,旨在为医疗 AI 提供基于已验证医学事实的基础。该图谱由 Eka Care 的临床专家构建和验证,用于映射 SNOMED 编码的临床概念(如疾病、发现、程序、生活方式因素)到其通用药物治疗和 LOINC 编码的实验室检查,采用三级层次结构:系统 → 组 → 细粒度。该数据集包含 2,471 个概念节点、1,186 个药物节点和 812 个实验室检查节点,共有 3,566 个关系。数据集支持多种应用场景,如从患者用药历史推断可能病情、构建患者健康档案、为 LLM 提供结构化基础以及 GNN 训练。数据集以 CC BY-NC 4.0 许可发布,仅限非商业用途。
创建时间:
2026-04-11
原始信息汇总

BODHI-M — 临床概念-药物-实验室检查知识图谱数据集概述

数据集基本信息

  • 数据集名称: BODHI-M — Clinical Concept-Drug-Lab Investigation Knowledge Graph
  • 许可证: CC BY-NC 4.0
  • 语言: 英语
  • 标签: 医疗、知识图谱、临床、医疗保健、印度、SNOMED、LOINC、图、药物、实验室检查
  • 数据规模: 1K < n < 10K

数据集描述

BODHI-M 是 BODHI(Bharat Ontology for Disease & Healthcare Informatics) 的一部分,旨在为医疗保健人工智能提供基于已验证医学事实的开放临床知识图谱。该图谱将 SNOMED 编码的临床概念(疾病、发现、程序、生活方式因素)映射到其通用药物治疗和 LOINC 编码的实验室检查,并组织为三层层次结构:系统 → 组 → 细粒度。该图谱由 Eka Care 的临床专家构建和验证,已在印度数百万条记录中支持生产级患者健康画像和纵向健康视图。

核心统计信息

指标 数量
概念节点 2,471
药物节点 1,186
实验室检查节点 812
总关系数 3,566
概念 → 概念 (CHILD_OF) 1,768
概念 → 药物 (TREATED_BY) 908
实验室检查 → 概念 (IMPACTS) 808
概念 → 实验室检查 (MONITORED_BY) 82
  • 概念层次结构: 系统 14 → 组 250 → 细粒度 1,942
  • 实验室检查 LOINC 覆盖范围: 涵盖免疫学、肾脏、血液学、内分泌学和胃肠病学领域的 812 项 LOINC 映射测试。

文件内容

文件 描述
triples.jsonl 包含 (head, relation, tail, properties) 结构的三元组
nl_facts.jsonl 自然语言事实字符串,适用于 LLM 微调 / RAG

对于 Neo4j 转储、CSV、PyTorch Geometric 和 RDF/Turtle 格式,请参阅 GitHub 仓库:https://github.com/eka-care/BODHI。

数据模式(三元组)

triples.jsonl 中的每一行遵循以下 JSON 结构: json { "head": "<node_id>", "head_type": "Concept | Drug | LabInvestigation", "relation": "CHILD_OF | TREATED_BY | IMPACTS | MONITORED_BY", "tail": "<node_id>", "tail_type": "Concept | Drug | LabInvestigation", "properties": { ... } }

采用标准

  • SNOMED CT: 所有概念节点均携带 SNOMED ID。
  • LOINC: 所有实验室检查节点均携带 LOINC ID。

主要应用场景

  • 反向推理: 从患者的用药史推断可能的病症。
  • 患者健康画像: 从碎片化的健康数据构建更丰富的纵向视图。
  • GraphRAG: 为 LLM 在治疗和检查推理方面提供结构化基础。
  • 图神经网络训练: 包含多类节点和类型化边的异构图。

许可证信息

本数据集采用 CC BY-NC 4.0 许可证,允许在注明来源 Eka Care 的情况下免费用于非商业用途。

搜集汇总
数据集介绍
main_image_url
构建方式
在临床知识图谱构建领域,BODHI-M的构建过程体现了严谨的医学知识工程方法。该数据集由Eka Care的临床专家团队精心构建与验证,其核心在于将基于SNOMED CT编码的临床概念(如疾病、症状、操作)与通用药物治疗及LOINC编码的实验室检查项目进行系统化关联。构建框架采用三层级概念体系,即从宏观的“系统”到中观的“组别”,再到微观的“具体”概念,这种层级设计旨在支持当药物或检验结果无法精确对应特定疾病时,仍能在更广泛的层级进行可靠的“软推理”。整个知识图谱最终以结构化的三元组形式呈现,确保了医学事实的准确性与逻辑关联的清晰性。
特点
BODHI-M数据集展现出多维度融合的显著特点。其核心特征在于整合了标准化的医学术语体系,所有临床概念均映射至SNOMED CT编码,而实验室检查项目则统一采用LOINC编码,这为跨系统数据互操作奠定了坚实基础。图谱结构具有异构性,包含概念、药物和实验室检查三类节点,并通过“子类属于”、“由…治疗”、“影响”、“由…监测”四种语义关系进行连接,形成了一个富含医学逻辑的网络。尤为突出的是其支持双向推理的能力,既能从疾病推导常规治疗方案与监测指标,也能实现从药物清单反向推断潜在病况的“逆向推理”,这为复杂的临床决策支持提供了独特价值。
使用方法
该数据集为医疗人工智能应用提供了结构化的知识基石。在技术实现层面,用户可通过提供的`triples.jsonl`文件直接获取标准的三元组结构,用于图神经网络模型的训练与推理;而`nl_facts.jsonl`文件则提供了自然语言表述的事实,便于与大语言模型结合,用于检索增强生成或微调任务。其实践应用场景广泛,例如,在患者健康画像构建中,可利用图谱关系整合碎片化的临床记录,形成连贯的纵向健康视图。在临床辅助决策场景下,图谱的逆向推理功能能够帮助分析患者用药史以推测潜在诊断。开发者亦可将其导入Neo4j等图数据库,或利用PyTorch Geometric等框架,构建基于知识的医疗问答系统或风险预测模型。
背景与挑战
背景概述
在医疗人工智能领域,构建能够整合临床知识的结构化数据资源是推动精准医疗发展的关键。BODHI-M数据集作为Bharat疾病与健康信息本体的一部分,由印度数字健康平台Eka Care的临床专家团队创建,旨在通过知识图谱形式映射SNOMED CT编码的临床概念与通用药物及LOINC编码的实验室检查之间的关系。该数据集采用三层概念层次体系,涵盖系统、组别和细粒度级别,支持从药物清单进行反向推理,并为患者健康画像提供结构化基础,已在印度数百万条医疗记录中应用于生产环境,显著提升了临床决策支持系统的可靠性与可解释性。
当前挑战
BODHI-M数据集致力于解决临床知识表示与推理中的核心挑战,即如何将分散的医疗概念、药物及实验室检查整合为可计算的知识结构,以支持疾病诊断、治疗推荐及健康监测等任务。在构建过程中,面临的挑战包括确保SNOMED CT与LOINC标准术语的准确映射、维护三层概念层次的一致性以支持软推理与反向推理,以及在印度特定医疗背景下验证临床关系的权威性。此外,数据集需平衡知识的覆盖广度与深度,同时处理异构节点与多类型边的关系复杂性,以适配图神经网络训练与检索增强生成等高级应用场景。
常用场景
经典使用场景
在临床知识图谱领域,BODHI-M数据集通过构建三层层次结构,将SNOMED编码的临床概念与通用药物及LOINC编码的实验室检查相关联,为医疗人工智能提供了结构化知识基础。该数据集最经典的使用场景在于支持反向推理,即仅依据患者的用药历史,推断其潜在的健康状况,这一功能在电子健康记录碎片化背景下,显著提升了临床决策的辅助能力。
解决学术问题
BODHI-M数据集有效解决了医疗人工智能中知识表示与推理的关键学术问题。通过整合标准医学术语体系,如SNOMED CT和LOINC,该数据集为异构医疗数据的语义对齐提供了可靠基准,促进了知识图谱嵌入、图神经网络等模型在临床领域的应用。其层次化设计支持软推理机制,当无法精确匹配具体疾病时,可在系统或组别层面进行可靠推断,从而增强了模型在不确定环境下的鲁棒性。
衍生相关工作
围绕BODHI-M数据集,已衍生出多项经典研究工作,主要集中在图神经网络与知识图谱的交叉领域。学者们利用其异构节点与类型化边的关系,开发了针对临床推理的图表示学习模型,这些模型能够捕获概念、药物和实验室检查之间的复杂交互。同时,该数据集也促进了医疗图检索增强生成技术的探索,为构建可解释的临床决策支持系统提供了重要数据支撑。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作