BODHI-S

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/ekacare/BODHI-S

下载链接

链接失效反馈

官方服务：

资源简介：

BODHI-S 是一个临床条件-症状知识图谱，属于 Bharat Ontology for Disease & Healthcare Informatics (BODHI) 的一部分。该数据集由 Eka Care 的专家临床医生构建和验证，用于支持印度的症状检查和鉴别诊断系统。数据集包含 779 个条件节点、4,037 个症状节点（变体）、590 个症状根概念（不同的 SNOMED ID）和 39 个专业节点，总共有 13,204 个关系。症状被建模为复合变体，每个节点都包含分诊级别和人口统计可能性分数。数据集适用于图神经网络（GNN）训练、症状检查与分诊、专业路由以及作为临床推理任务的结构化基础层。数据集采用 CC BY-NC 4.0 许可证，仅供非商业使用。

创建时间：

2026-04-11

原始信息汇总

BODHI-S — 临床病症-症状知识图谱数据集概述

数据集基本信息

数据集名称：BODHI-S — Condition-Symptom Knowledge Graph
发布方：Eka Care
许可证：CC BY-NC 4.0（非商业用途，需署名）
主要语言：英语
数据规模：10K < n < 100K
标签：医学、知识图谱、临床、医疗保健、印度、SNOMED、图、症状检查、分诊、鉴别诊断

数据集描述

BODHI-S是**BODHI（Bharat Ontology for Disease & Healthcare Informatics）**的一部分，这是一个用于将医疗AI基于已验证医学事实的开放临床知识图谱。该图谱将临床病症与其表现症状、相关医学专科以及病症间的风险关系进行映射。它由Eka Care的临床专家构建和验证，并已在印度数百万次患者交互中为生产级症状检查和鉴别诊断系统提供支持。

症状被建模为复合变体（例如：发热、伴有寒战的发热、持续3天的发热），每个变体作为一个独立的节点。每个节点都带有分诊级别（急诊、需关注、门诊可管理）以及跨年龄和性别队列的人口统计学可能性评分，这些评分源自专家共识并根据印度电子健康记录数据进行了标准化。

数据统计

病症节点：779
症状节点（变体）：4,037
症状根概念（不同的SNOMED ID）：590
专科节点：39
总关系数：13,204
- 症状 → 病症（PRESENT_IN）：10,352
- 病症 → 专科（TREATED_BY）：1,558
- 病症 → 病症（IS_INFLUENCED_BY）：1,020
- 病症 → 病症（RELATED_TO）：221
- 病症 → 病症（HAS_PREREQUISITE）：53

病症分诊分布：

门诊可管理：367（47%）
需关注：223（29%）
急诊：189（24%）

最具交叉性的症状：

发热（关联145种病症）
疲劳（关联126种病症）
头痛（关联110种病症）

主要专科：

内科：292
全科医生：205
骨科：139

文件内容

triples.jsonl：包含(head, relation, tail, properties)结构的元组。
nl_facts.jsonl：自然语言事实字符串，适用于LLM微调或RAG。

数据模式（元组）

triples.jsonl中的每一行遵循以下JSON结构： json { "head": "<node_id>", "head_type": "Symptom | Condition | Speciality", "relation": "PRESENT_IN | TREATED_BY | IS_INFLUENCED_BY | HAS_PREREQUISITE | RELATED_TO", "tail": "<node_id>", "tail_type": "Symptom | Condition | Speciality", "properties": { ... } }

遵循标准

SNOMED CT：所有病症和症状根概念均带有SNOMED ID。
分诊和人口统计学可能性评分源自印度初级保健电子健康记录数据。

主要用途

GraphRAG：为LLM在临床推理任务上提供结构化基础层。
症状检查与分诊：确定性的、可离线运行的鉴别诊断。
专科分诊：将任何病症映射到适当的诊疗学科。
GNN训练：具有丰富边属性的异构图，适用于图神经网络。

相关资源

完整说明（动机、设计及用例）：https://info.eka.care/services/bodhi-bharat-ontology-for-disease-healthcare-informatics
GitHub仓库（Neo4j、CSV、PyG、RDF等格式）：https://github.com/eka-care/BODHI

搜集汇总

数据集介绍

构建方式

在临床医学知识图谱构建领域，BODHI-S数据集通过严谨的专家验证流程得以建立。该数据集由Eka Care的临床专家团队开发与校验，其核心是将临床病症与呈现症状、关联专科及病症间风险关系进行系统化映射。构建过程中，症状被建模为复合变体，例如“发热”、“伴寒战的发热”、“持续三天的发热”，每个变体均作为独立节点，以精准捕捉症状细微差异对临床诊断概率的影响。每个节点均附有由专家共识生成、并依据印度电子健康记录数据归一化的分诊级别与人口统计学似然评分，确保了数据的临床可靠性与地域代表性。

特点

BODHI-S数据集展现出多维度、细粒度的结构化特征。其图谱包含779个病症节点、4037个症状变体节点及39个专科节点，通过13204条关系连接，构成了一个异构的临床知识网络。显著特点在于对症状的精细化建模，将同一症状的不同临床表现区分为独立节点，从而更真实地反映临床决策逻辑。此外，数据集深度融合了国际医学术语标准SNOMED CT，所有核心概念均配有SNOMED ID，并集成了基于印度初级诊疗数据的紧急程度分诊标签与人口统计学概率评分，为面向印度人群的医疗AI应用提供了关键的本土化数据支撑。

使用方法

该数据集为医疗人工智能研究与应用提供了灵活的多模态接口。研究者可通过`triples.jsonl`文件获取结构化的三元组数据，直接用于知识图谱嵌入或图神经网络训练；而`nl_facts.jsonl`文件则提供了自然语言描述的事实陈述，便于大型语言模型的微调或检索增强生成任务。数据集支持多种格式，包括Neo4j图数据库、CSV、PyTorch Geometric及RDF，可便捷地集成至不同的技术栈中。典型应用场景包括构建可解释的症状检查与分诊系统、实现病症到专科的智能导诊、以及作为图检索增强生成的基础层，为临床推理任务提供结构化的知识基础。

背景与挑战

背景概述

BODHI-S作为BODHI（Bharat Ontology for Disease & Healthcare Informatics）项目的重要组成部分，由印度数字健康平台Eka Care的临床专家团队构建与验证，旨在为医疗人工智能提供基于已验证医学事实的结构化知识基础。该知识图谱于近年发布，核心研究聚焦于临床病症与症状之间的复杂映射关系，整合了医学专科分类及病症间风险关联，以支持症状检查与鉴别诊断系统。其设计深度融合了SNOMED CT标准与印度本土电子健康记录数据，通过量化症状变体、分诊等级及人口统计学似然评分，显著提升了临床推理的精确性与可解释性，为医疗AI在资源多样化环境中的可靠应用奠定了基石。

当前挑战

在医疗知识图谱领域，BODHI-S致力于应对症状检查与鉴别诊断中语义粒度与临床概率建模的核心挑战。具体而言，其需准确捕捉症状的复合变体（如'发热'与'伴寒战的发热'）对病症概率的细微影响，并在缺乏大规模标注数据的环境下确保关系的临床有效性。构建过程中的挑战主要源于知识整合的复杂性：一方面，需将国际标准（SNOMED CT）与印度本土的医疗实践及EHR数据进行语义对齐与归一化；另一方面，依赖专家共识推导分诊等级与人口统计学评分，要求跨专科协作以平衡医学权威性与数据代表性，同时维护知识图谱的时效性与扩展性以适应持续演进的临床证据。

常用场景

经典使用场景

在临床医学与人工智能交叉领域，BODHI-S知识图谱常被用于构建精准的症状检查与鉴别诊断系统。该图谱通过建模症状的复合变体，如“发热伴寒战”或“发热持续三天”，为每种细微临床表现赋予独立节点，从而捕捉症状呈现的细微差异对疾病概率的影响。这种结构化设计使得系统能够基于印度电子健康记录数据与专家共识，实现离线环境下的确定性推理，支持从症状输入到潜在疾病列表的自动化生成，并辅以分诊级别与人口统计学似然评分，为临床决策提供可靠的数据基础。

实际应用

在实际医疗场景中，BODHI-S已成功部署于印度的症状检查与分诊系统，服务数百万患者交互。其应用涵盖初级保健中的自动化症状评估，帮助患者初步了解自身症状的紧急程度，并引导至合适的专科就诊。此外，该图谱支持专科路由功能，能够根据疾病节点关联的专科信息，优化医疗资源分配。在临床教育领域，它可作为模拟诊断训练的工具，帮助医学生理解症状与疾病之间的复杂关联，提升诊断思维能力。

衍生相关工作

围绕BODHI-S数据集，已衍生出多项经典研究工作，主要集中在图神经网络与大型语言模型的医疗应用。例如，利用其异构图结构与丰富的边属性训练图神经网络，以预测疾病关联或症状演化；同时，该图谱常作为检索增强生成中的结构化知识源，为大型语言模型提供临床事实基础，提升其在诊断问答或医疗报告生成中的准确性与可靠性。此外，基于该数据集构建的离线症状检查引擎，为资源受限环境下的医疗AI部署提供了可行方案，推动了可解释医疗人工智能的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集