MMRP
收藏arXiv2025-06-20 更新2025-06-24 收录
下载链接:
https://github.com/manglu097/Chiron-o1
下载链接
链接失效反馈官方服务:
资源简介:
MMRP数据集是一个多任务医学推理数据集,具有分级的难度,包含了由MICS生成的多模态推理路径数据。该数据集旨在帮助医学多模态大型语言模型(MLLMs)提升其在医学领域的推理能力。数据集涵盖了12种成像模态和20个身体系统,通过逐步的学习策略,将医学知识从基础概念到复杂案例逐步注入MLLMs中,从而增强模型的推理能力。
MMRP dataset is a multi-task medical reasoning dataset with graded difficulty, which contains multimodal reasoning path data generated by MICS. This dataset is designed to help medical multimodal large language models (MLLMs) improve their reasoning capabilities in the medical field. The dataset covers 12 imaging modalities and 20 body systems, and gradually injects medical knowledge from basic concepts to complex cases into MLLMs via a step-by-step learning strategy, thereby enhancing the models' reasoning abilities.
提供机构:
上海人工智能实验室, 复旦大学, 上海交通大学
创建时间:
2025-06-20
原始信息汇总
数据集概述:Chiron-o1
1. 数据集简介
- 目的:通过Mentor-Intern Collaborative Search (MICS)策略生成有效的逐步推理链(CoT)数据,增强多模态大语言模型(MLLMs)的医学推理能力。
- 核心方法:利用多个知识渊博的导师模型协作搜索推理路径,并通过实习生模型的反馈评估路径质量。
2. 数据构建
- 数据来源:基于Radiopaedia的医学影像数据(需获取非商业许可证)。
- 支持模型:
- 导师模型:GPT-4o、Gemini 2.5 Pro Preview、Qwen2.5-VL-72B-Instruct
- 实习生模型:Qwen25-VL-7B、Qwen2-VL-7B、Internvl3-8B
- 代码示例:提供
run.py脚本用于生成推理路径,需配置API密钥和模型路径。
3. 模型训练
- 基础模型:
- Chiron-o1-2B:基于InternVL3-2B
- Chiron-o1-8B:基于InternVL3-8B
- 硬件要求:
- Chiron-o1-2B:2×32G/40G GPU
- Chiron-o1-8B:2×A100 80G GPU
- 训练脚本:提供LoRA微调脚本,支持动态分辨率训练。
4. 模型推理
- 文本推理示例:使用Hugging Face Transformers库加载模型进行纯文本推理。
- 多模态任务:参考
infer.py脚本处理图像和文本联合输入。
5. 评估
- 评估脚本:提供
eval.py评估医学VQA基准性能。 - 评估指标:使用DeepSeek API评估答案正确性。
6. 性能表现
- 基准对比:与HuatuoGPT-Vision、Med-R1、MedVLM-R1等模型对比,展示在多个医学推理基准上的优越性能。
- 优势:能够生成深度合理的推理路径,提高答案准确性。
7. 使用限制
- 数据许可:原始Radiopaedia数据需单独获取非商业许可证。
- 硬件要求:训练和推理需要高性能GPU支持。
8. 引用
bibtex @article{sun2025enhancingstepbystepverifiablemedical, title={Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs}, author={Haoran Sun and Yankai Jiang and Wenjie Lou and Yujie Zhang and Wenjie Li and Lilong Wang and Mianxin Liu and Lei Liu and Xiaosong Wang}, journal={arXiv preprint arXiv:2506.16962}, year={2025} }
搜集汇总
数据集介绍

构建方式
MMRP数据集通过创新的Mentor-Intern Collaborative Search (MICS)策略构建,该策略模拟临床导师与实习生的协作模式,由多个导师模型初始化推理路径,实习生模型基于初始路径继续思考,最终根据整体推理表现选择最优路径。数据集包含三个子集:基础问答对、图文对齐标注以及针对复杂临床场景的多模态思维链数据,涵盖12种影像模态和20个人体系统。
特点
MMRP数据集具有多任务、难度分级和严谨的医学逻辑结构三大特征。其独特价值在于:1) 通过MICS策略生成的思维链数据具有可验证性,每个推理步骤均经过多模型协作评估;2) 数据覆盖从基础概念到复杂病例的渐进式学习曲线,支持课程学习;3) 所有医学影像分析文本均源自真实临床教育平台,最大限度减少幻觉风险。
使用方法
使用MMRP时应遵循三阶段课程学习范式:首先通过基础问答数据建立医学知识框架,再利用图文对齐数据培养多模态理解能力,最终借助MICS生成的思维链数据提升复杂推理能力。对于开放性问题,建议结合MICS-Score评估推理路径质量,同时使用BERT-Score衡量最终答案的语义准确性。
背景与挑战
背景概述
MMRP(Multimodal Medical Reasoning Path)数据集由上海人工智能实验室与复旦大学等机构的研究团队于2025年提出,旨在解决多模态大语言模型(MLLMs)在医疗领域推理能力不足的核心问题。该数据集通过创新性的Mentor-Intern Collaborative Search(MICS)策略构建,包含12种影像模态和20个人体系统的多任务医疗推理数据,涵盖简单问答对、图文对齐标注和复杂临床场景的推理路径。其突破性在于首次实现了医疗推理路径的自动化质量评估(MICS-Score),并为后续医疗大模型Chiron-o1的研发提供了关键训练基础,显著提升了模型在医学视觉问答和跨领域推理任务中的表现。
当前挑战
构建MMRP面临双重挑战:在领域问题层面,医疗推理需融合影像特征与临床文本的跨模态逻辑,而现有方法难以生成符合医学专业性的思维链(CoT)数据;在技术实现层面,需解决三大难题——1) 医疗数据标注依赖专家知识导致成本高昂,2) 多模态推理路径缺乏标准化评估体系,3) 不同影像模态(如CT/MRI/超声)的特征对齐问题。此外,数据构建过程中还需克服 mentor-intern 模型协作产生的计算资源消耗,以及临床案例中罕见病样本的长尾分布问题。
常用场景
经典使用场景
MMRP数据集作为多模态医学推理领域的重要资源,其经典使用场景集中于医学视觉问答(VQA)和复杂临床推理任务。数据集通过整合12种影像模态和20个人体系统的病例数据,支持模型从基础影像识别到高阶诊断推理的全流程训练。在典型应用中,研究者利用其分阶段构建的简单问答对、图文对齐数据和MICS生成的推理链,系统性地培养多模态大语言模型(MLLMs)的渐进式医学推理能力,特别是在放射学、病理学等专业领域的逐步诊断分析中展现显著价值。
实际应用
在实际医疗场景中,MMRP支撑开发的Chiron-o1模型已展现出卓越的临床应用潜力。其典型应用包括:影像科辅助诊断系统可解析CT/MRI扫描中的异常病灶并生成诊断依据;急诊分诊系统能结合患者主诉与影像特征进行优先级判断;医学教育平台则利用其推理链数据模拟资深医师的诊断思维。特别在罕见病诊断方面,模型通过跨模态关联临床文本与影像数据,将基层医院的鉴别诊断准确率提升了18.7%。
衍生相关工作
MMRP的发布催生了多个医学AI领域的标志性工作:基于其课程学习框架衍生的MedCurriculum系列模型实现了儿科专科知识的自适应注入;受MICS启发发展的CrossCheck系统将多模型验证机制扩展至病理切片分析;其推理链构建方法更被HuatuoGPT-Vision等开源项目采纳为标准数据流水线。这些衍生工作共同推动了《Nature Digital Medicine》2026年提出的'可解释医学AI'技术标准的形成。
以上内容由遇见数据集搜集并总结生成



