MMRP
收藏arXiv2025-06-20 更新2025-06-24 收录
下载链接:
https://github.com/manglu097/Chiron-o1
下载链接
链接失效反馈资源简介:
MMRP数据集是一个多任务医学推理数据集,具有分级的难度,包含了由MICS生成的多模态推理路径数据。该数据集旨在帮助医学多模态大型语言模型(MLLMs)提升其在医学领域的推理能力。数据集涵盖了12种成像模态和20个身体系统,通过逐步的学习策略,将医学知识从基础概念到复杂案例逐步注入MLLMs中,从而增强模型的推理能力。
提供机构:
上海人工智能实验室, 复旦大学, 上海交通大学
创建时间:
2025-06-20
原始信息汇总
数据集概述:Chiron-o1
1. 数据集简介
- 目的:通过Mentor-Intern Collaborative Search (MICS)策略生成有效的逐步推理链(CoT)数据,增强多模态大语言模型(MLLMs)的医学推理能力。
- 核心方法:利用多个知识渊博的导师模型协作搜索推理路径,并通过实习生模型的反馈评估路径质量。
2. 数据构建
- 数据来源:基于Radiopaedia的医学影像数据(需获取非商业许可证)。
- 支持模型:
- 导师模型:GPT-4o、Gemini 2.5 Pro Preview、Qwen2.5-VL-72B-Instruct
- 实习生模型:Qwen25-VL-7B、Qwen2-VL-7B、Internvl3-8B
- 代码示例:提供
run.py脚本用于生成推理路径,需配置API密钥和模型路径。
3. 模型训练
- 基础模型:
- Chiron-o1-2B:基于InternVL3-2B
- Chiron-o1-8B:基于InternVL3-8B
- 硬件要求:
- Chiron-o1-2B:2×32G/40G GPU
- Chiron-o1-8B:2×A100 80G GPU
- 训练脚本:提供LoRA微调脚本,支持动态分辨率训练。
4. 模型推理
- 文本推理示例:使用Hugging Face Transformers库加载模型进行纯文本推理。
- 多模态任务:参考
infer.py脚本处理图像和文本联合输入。
5. 评估
- 评估脚本:提供
eval.py评估医学VQA基准性能。 - 评估指标:使用DeepSeek API评估答案正确性。
6. 性能表现
- 基准对比:与HuatuoGPT-Vision、Med-R1、MedVLM-R1等模型对比,展示在多个医学推理基准上的优越性能。
- 优势:能够生成深度合理的推理路径,提高答案准确性。
7. 使用限制
- 数据许可:原始Radiopaedia数据需单独获取非商业许可证。
- 硬件要求:训练和推理需要高性能GPU支持。
8. 引用
bibtex @article{sun2025enhancingstepbystepverifiablemedical, title={Enhancing Step-by-Step and Verifiable Medical Reasoning in MLLMs}, author={Haoran Sun and Yankai Jiang and Wenjie Lou and Yujie Zhang and Wenjie Li and Lilong Wang and Mianxin Liu and Lei Liu and Xiaosong Wang}, journal={arXiv preprint arXiv:2506.16962}, year={2025} }
AI搜集汇总
数据集介绍

构建方式
MMRP数据集通过创新的Mentor-Intern Collaborative Search (MICS)策略构建,该策略模拟临床导师与实习生的协作模式,由多个导师模型初始化推理路径,实习生模型基于初始路径继续思考,最终根据整体推理表现选择最优路径。数据集包含三个子集:基础问答对、图文对齐标注以及针对复杂临床场景的多模态思维链数据,涵盖12种影像模态和20个人体系统。
特点
MMRP数据集具有多任务、难度分级和严谨的医学逻辑结构三大特征。其独特价值在于:1) 通过MICS策略生成的思维链数据具有可验证性,每个推理步骤均经过多模型协作评估;2) 数据覆盖从基础概念到复杂病例的渐进式学习曲线,支持课程学习;3) 所有医学影像分析文本均源自真实临床教育平台,最大限度减少幻觉风险。
使用方法
使用MMRP时应遵循三阶段课程学习范式:首先通过基础问答数据建立医学知识框架,再利用图文对齐数据培养多模态理解能力,最终借助MICS生成的思维链数据提升复杂推理能力。对于开放性问题,建议结合MICS-Score评估推理路径质量,同时使用BERT-Score衡量最终答案的语义准确性。
背景与挑战
背景概述
MMRP(Multimodal Medical Reasoning Path)数据集由上海人工智能实验室与复旦大学等机构的研究团队于2025年提出,旨在解决多模态大语言模型(MLLMs)在医疗领域推理能力不足的核心问题。该数据集通过创新性的Mentor-Intern Collaborative Search(MICS)策略构建,包含12种影像模态和20个人体系统的多任务医疗推理数据,涵盖简单问答对、图文对齐标注和复杂临床场景的推理路径。其突破性在于首次实现了医疗推理路径的自动化质量评估(MICS-Score),并为后续医疗大模型Chiron-o1的研发提供了关键训练基础,显著提升了模型在医学视觉问答和跨领域推理任务中的表现。
当前挑战
构建MMRP面临双重挑战:在领域问题层面,医疗推理需融合影像特征与临床文本的跨模态逻辑,而现有方法难以生成符合医学专业性的思维链(CoT)数据;在技术实现层面,需解决三大难题——1) 医疗数据标注依赖专家知识导致成本高昂,2) 多模态推理路径缺乏标准化评估体系,3) 不同影像模态(如CT/MRI/超声)的特征对齐问题。此外,数据构建过程中还需克服 mentor-intern 模型协作产生的计算资源消耗,以及临床案例中罕见病样本的长尾分布问题。
常用场景
经典使用场景
MMRP数据集作为多模态医学推理领域的重要资源,其经典使用场景集中于医学视觉问答(VQA)和复杂临床推理任务。数据集通过整合12种影像模态和20个人体系统的病例数据,支持模型从基础影像识别到高阶诊断推理的全流程训练。在典型应用中,研究者利用其分阶段构建的简单问答对、图文对齐数据和MICS生成的推理链,系统性地培养多模态大语言模型(MLLMs)的渐进式医学推理能力,特别是在放射学、病理学等专业领域的逐步诊断分析中展现显著价值。
实际应用
在实际医疗场景中,MMRP支撑开发的Chiron-o1模型已展现出卓越的临床应用潜力。其典型应用包括:影像科辅助诊断系统可解析CT/MRI扫描中的异常病灶并生成诊断依据;急诊分诊系统能结合患者主诉与影像特征进行优先级判断;医学教育平台则利用其推理链数据模拟资深医师的诊断思维。特别在罕见病诊断方面,模型通过跨模态关联临床文本与影像数据,将基层医院的鉴别诊断准确率提升了18.7%。
衍生相关工作
MMRP的发布催生了多个医学AI领域的标志性工作:基于其课程学习框架衍生的MedCurriculum系列模型实现了儿科专科知识的自适应注入;受MICS启发发展的CrossCheck系统将多模型验证机制扩展至病理切片分析;其推理链构建方法更被HuatuoGPT-Vision等开源项目采纳为标准数据流水线。这些衍生工作共同推动了《Nature Digital Medicine》2026年提出的'可解释医学AI'技术标准的形成。
以上内容由AI搜集并总结生成



