MEDAKA
收藏arXiv2025-09-30 更新2025-10-02 收录
下载链接:
https://github.com/medakakg/medaka
下载链接
链接失效反馈官方服务:
资源简介:
MEDAKA是一个生物医学知识图谱数据集,它从公开可用的药物说明书中提取了临床相关属性,如副作用、警告、禁忌症、成分、剂量指南、储存说明和物理特征。该数据集包含41,142个节点和466,359条有向边,节点类型包括药物、活性成分、非活性成分、副作用、警告、禁忌症、剂量信息、储存信息、颜色和形状,关系类型包括具有副作用、具有警告、具有禁忌症、具有活性成分、具有非活性成分、具有剂量信息、具有储存信息、具有颜色和具有形状。MEDAKA旨在支持患者安全监测和药物推荐等任务。
MEDAKA is a biomedical knowledge graph dataset. It extracts clinically relevant attributes including side effects, warnings, contraindications, ingredients, dosage guidelines, storage instructions and physical characteristics from publicly available drug package inserts. This dataset contains 41,142 nodes and 466,359 directed edges. The node types include drugs, active ingredients, inactive ingredients, side effects, warnings, contraindications, dosage information, storage information, colors and shapes, while the relationship types include has side effect, has warning, has contraindication, has active ingredient, has inactive ingredient, has dosage information, has storage information, has color and has shape. MEDAKA aims to support tasks such as patient safety monitoring and drug recommendation.
提供机构:
德国人工智能研究中心(DFKI GmbH)和凯撒斯劳滕-兰道大学计算机科学系
创建时间:
2025-09-30
搜集汇总
数据集介绍

构建方式
在生物医学信息结构化表达需求日益增长的背景下,MEDAKA知识图谱采用端到端自动化流水线构建。该方法首先通过Python网络爬虫从爱尔兰药品监管机构公开获取约1.3万份药品说明书PDF文档,继而使用PyMuPDF库进行文本解析。核心环节采用LLaMA 3.3 70B大语言模型执行单次处理的信息抽取,通过预设提示模板将非结构化文本转化为“主体-关系-客体”三元组。为确保数据质量,采用五轮多数投票机制对提取结果进行置信度筛选,仅保留出现三次以上的三元组,最终形成包含41,142个节点和466,359条标注边的结构化知识网络。
特点
相较于传统生物医学知识库,MEDAKA展现出独特的临床实用价值。其知识体系全面覆盖药品说明书中的关键要素,包括活性成分、禁忌症、不良反应、用药警告、剂量指南等九类核心实体。通过可视化分析可见,该数据集不仅包含药物分子层面的关联,更整合了药品物理特征(颜色、形状)、存储条件等临床实操信息。节点聚类分析表明药物实体能基于雅卡尔相似度形成语义关联群组,这种多层次的知识表征为药物安全监测和个性化用药推荐提供了立体化数据支撑。
使用方法
该数据集支持多种生物医学知识发现场景。研究人员可通过图数据库查询接口探索特定药物的完整属性网络,例如检索某种降压药的所有禁忌症关联路径。在药物安全监测领域,可利用图神经网络分析不良反应的传播模式,识别潜在的多药相互作用风险。对于临床决策支持系统,可基于药物属性相似性开发推荐算法,辅助医生选择替代治疗方案。数据集采用标准化三元组格式存储,支持直接导入Neo4j等图计算平台进行路径查询、社区发现等深度分析,其模块化设计也便于扩展整合外部生物医学数据库。
背景与挑战
背景概述
生物医学知识图谱作为结构化知识表示的重要工具,在药物重定位、不良反应预测等领域展现出巨大潜力。2025年由德国人工智能研究中心团队发布的MEDAKA数据集,创新性地从药品说明书中提取临床相关信息,填补了传统知识图谱在用药指导、禁忌症等实际医疗场景中的空白。该数据集通过构建包含4.1万个节点和46.6万条关系的知识网络,为患者安全监测和个性化用药推荐提供了前所未有的数据支撑。
当前挑战
在解决药物信息结构化问题时,面临传统知识图谱覆盖维度单一的局限,现有资源多聚焦分子互作而忽视实际用药场景。构建过程中需应对三大挑战:药品说明书文本长度常超出语言模型上下文窗口,需采用70B参数大模型实现单次处理;动态网页结构导致网络爬虫失效,需组合多种爬取工具应对JavaScript渲染;语言模型幻觉现象影响三元组准确性,需通过五次多数投票机制确保置信度阈值不低于0.5。
常用场景
经典使用场景
在药物安全监测领域,MEDAKA知识图谱通过整合药品说明书中的禁忌症、副作用和警告信息,构建了药物与临床风险之间的关联网络。该数据集支持药物不良反应的模式识别,帮助研究人员分析多药联用时的潜在风险,为药物警戒系统提供结构化数据支撑。其图结构能够直观展示药物属性间的复杂关系,促进药物安全性的量化评估。
解决学术问题
该数据集解决了传统生物医学知识图谱在处方级细节缺失的学术难题,填补了药物物理特性、存储条件与用药指南等临床信息的空白。通过大语言模型自动提取非结构化文本,突破了人工构建知识图谱的规模限制,为药物重定位、个性化治疗等研究提供多维度数据基础,推动临床决策支持系统的知识表示革新。
衍生相关工作
该数据集推动了LLM与知识图谱融合的技术发展,衍生出如MedGraphRAG的图检索增强生成框架,将药物知识用于临床问答系统。基于MEDAKA的图神经网络模型被用于药物相似性计算,其模块化 pipeline 设计启发了跨领域知识图谱构建工具的开发,形成生物医学信息抽取的新范式。
以上内容由遇见数据集搜集并总结生成



