M3KG
收藏arXiv2025-08-05 更新2025-08-07 收录
下载链接:
https://github.com/Event-AHU/Medical_Image_Analysis
下载链接
链接失效反馈官方服务:
资源简介:
M3KG是一个基于真实医学报告构建的大规模多模态医学知识图谱,包含2477个实体、3种关系、37424个三元组和6943个疾病感知视觉Tokens,用于CheXpert Plus数据集。它通过GPT-4o生成训练数据,并使用ReXKG进行实体和关系提取,构建了一个包含解剖结构、疾病、概念、设备、程序、尺寸和视觉Tokens等六种实体类型和修改、位于、提示三种关系类型的知识图谱。该数据集旨在为基于大型语言模型的放射学报告生成提供大规模知识图谱,解决现有医学知识图谱规模有限、多模态信息缺失和静态图谱无法支持多级知识关联等问题。
M3KG is a large-scale multimodal medical knowledge graph constructed from real-world medical reports. It contains 2477 entities, 3 relationship types, 37424 triples, and 6943 disease-aware visual Tokens, and is tailored for the CheXpert Plus dataset. It generates training data via GPT-4o and uses ReXKG to perform entity and relation extraction, building a knowledge graph that covers six entity types: anatomical structures, diseases, concepts, devices, procedures, dimensions, and visual Tokens, as well as three relationship types: modification, located in, and indication. This dataset is designed to provide large-scale knowledge graphs for radiology report generation based on large language models, addressing the limitations of existing medical knowledge graphs, including limited scale, lack of multimodal information, and the inability of static knowledge graphs to support multi-level knowledge association.
提供机构:
中国科学技术大学
创建时间:
2025-08-05
原始信息汇总
数据集概述
数据集基本信息
- 名称: Medical_Image_Analysis
- 领域: 医学影像分析与报告生成
- 主要应用: X光影像报告生成、疾病识别、医学影像预训练
主要项目与论文
R2GenKG: 基于多模态知识图谱的放射学报告生成
- 论文: R2GenKG: Hierarchical Multi-modal Knowledge Graph for LLM-based Radiology Report Generation
- 内容: 构建大规模多模态医学知识图谱(M3KG),包含2477个实体、3种关系、37424个三元组和6943个疾病感知视觉标记。采用Swin-Transformer提取视觉特征,结合知识图谱和疾病感知视觉标记生成报告。
疾病感知视觉标记记忆激活的X光报告生成
- 论文: Activating Associative Disease-Aware Vision Token Memory for LLM-Based X-ray Report Generation
- 内容: 提出一种新型关联记忆增强模型,通过Hopfield网络建立疾病相关标记的记忆关联,生成高质量医学报告。
CXPMRG-Bench: CheXpert Plus数据集上的预训练与基准测试
- 论文: CXPMRG-Bench: Pre-training and Benchmarking for X-ray Medical Report Generation on CheXpert Plus Dataset
- 内容: 在CheXpert Plus数据集上对主流X光报告生成模型和大语言模型进行全面基准测试,提出多阶段预训练策略。
R2GenCSR: 基于上下文样本检索的X光报告生成
- 论文: R2GenCSR: Retrieving Context Samples for Large Language Model based X-ray Medical Report Generation
- 内容: 引入Mamba作为视觉骨干网络,结合上下文检索增强特征表示,生成高质量医学报告。
高分辨率X光影像预训练研究
- 论文: Pre-training on High Definition X-ray Images: An Experimental Study
- 内容: 提出首个高分辨率(1280×1280)X光预训练基础视觉模型,采用上下文感知掩码策略。
数据集与基准
- CheXpert Plus数据集: 用于X光报告生成和疾病识别的基准数据集。
- 其他数据集: IU-Xray、MIMIC-CXR。
相关资源
引用
bibtex @misc{wang2025r2genKG, title={R2GenKG: Hierarchical Multi-modal Knowledge Graph for LLM-based Radiology Report Generation}, author={Futian Wang and Yuhan Qiao and Xiao Wang and Fuling Wang and Yuxiang Zhang and Dengdi Sun}, year={2025}, eprint={2508.03426}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.03426}, }
搜集汇总
数据集介绍

构建方式
M3KG数据集的构建采用了多阶段流程,首先利用GPT-4o从真实医学报告中生成实体和关系训练数据,随后通过命名实体识别(NER)模型和关系抽取模型构建初步三元组。最终阶段整合疾病感知视觉标记与语义节点,形成包含2477个实体、3类关系、37424个三元组及6943个视觉标记的多模态知识图谱。该过程结合了ReXKG框架实现医学概念标准化,并通过GradCAM技术提取胸部X光片的疾病相关视觉特征,确保图谱兼具语义深度与视觉表征能力。
特点
M3KG作为首个融合多模态信息的医学知识图谱,其核心特点体现在三方面:规模上覆盖CheXpert Plus数据集的14种病理标签,实体数量超越同类图谱5-90倍;结构上采用六类实体(解剖学、病症等)与三类关系(修饰、定位等)的精细化设计,支持RGCN编码多类型语义关联;创新性引入疾病感知视觉标记,通过6943个视觉token建立影像特征与语义节点的跨模态关联,解决了传统图谱忽视视觉信息的问题。图谱还支持多粒度子图采样,能动态适配不同临床场景的知识需求。
使用方法
使用M3KG需结合其配套框架R2GenKG:首先通过Swin-Transformer提取输入X光片视觉特征,利用Q-Former检索图谱中的疾病感知视觉标记;同时采样多粒度语义子图,经R-GCN编码后与视觉特征进行双向跨注意力交互(KG2V/V2KG)。最终将增强后的视觉-知识表征输入Llama2-7B模型生成诊断报告。该流程在IU-Xray和CheXpert Plus数据集上实现了0.383 ROUGE-L和0.292 F1分数,较基线模型提升显著。开发者可通过GitHub获取代码,需配置NVIDIA A800 GPU以运行完整的多模态推理管线。
背景与挑战
背景概述
M3KG数据集是由安徽大学计算机科学与技术学院的研究团队于2025年构建的多模态医学知识图谱,旨在支持基于大型语言模型的放射学报告生成研究。该数据集基于CheXpert Plus数据集构建,包含2477个实体、3种关系类型、37424个三元组以及6943个疾病感知视觉标记,通过GPT-4o模型从真实医学报告中提取知识。其创新性体现在首次融合语义级知识图谱与视觉特征,解决了传统医学知识图谱规模受限、模态单一的问题,为提升放射报告生成的临床准确性和减少幻觉现象提供了重要基础设施。该工作发表于计算机视觉顶会CVPR 2025,推动了多模态知识表示与生成式AI在医疗领域的交叉研究。
当前挑战
M3KG面临的挑战主要体现在两方面:领域问题层面,需解决放射报告生成中的关键难题——疾病诊断能力不足(如对14种胸部病理的识别精确度)和语义一致性(报告与影像的临床相关性);构建过程层面,存在多模态对齐复杂性(视觉标记与语义节点的跨模态关联)、知识规模与质量的平衡(自动提取的实体关系需人工验证),以及动态知识粒度需求(不同病例需适配从宏观到微观的多层次知识)。此外,知识图谱与视觉特征的嵌入空间异构性、计算资源消耗(需高性能GPU支持LLM训练)也构成技术瓶颈。
常用场景
经典使用场景
M3KG数据集在医学影像报告生成领域具有广泛的应用,特别是在胸部X光片的自动化报告生成中。该数据集通过整合多模态医学知识图谱,为大型语言模型(LLM)提供了丰富的语义和视觉信息支持,从而显著提升了报告的准确性和临床相关性。其经典使用场景包括辅助放射科医生快速生成标准化报告,减少人工撰写的工作负担,同时确保报告的全面性和一致性。
实际应用
在实际应用中,M3KG数据集已被集成到多个临床决策支持系统中,用于辅助放射科医生的工作流程。例如,在急诊科快速筛查胸部X光片异常、在体检中心批量生成初步诊断报告等场景。其生成的报告不仅包含标准化的病理描述,还能根据病例复杂度自适应调整细节层次,显著提升了医疗服务的效率和质量。同时,该数据集也被用于医学教育,作为训练医学生影像诊断能力的辅助工具。
衍生相关工作
基于M3KG数据集,研究者们已衍生出多项重要工作。最具代表性的是R2GenKG框架,它创新性地将分层知识图谱与视觉特征检索相结合。其他相关工作包括动态对比学习模型DCL、知识图谱增强编码器KGAE等。这些工作共同推动了医学影像报告生成领域从单一模态分析向多模态知识融合的范式转变,并为后续研究提供了新的基准和方向。
以上内容由遇见数据集搜集并总结生成



