MM-NeuroOnco
收藏github2026-02-12 更新2026-02-13 收录
下载链接:
https://github.com/gfnnnb/MM-NeuroOnco
下载链接
链接失效反馈官方服务:
资源简介:
MM-NeuroOnco是一个大规模多模态基准和指令数据集,专为基于MRI的脑肿瘤诊断和可解释推理设计。该项目强调临床可解释推理、多模态集成(T1、T2、FLAIR和T1-Contrast模态)以及多样化任务支持(从封闭式诊断到开放式视觉问答)。数据集汇总了20个公开可用的医学成像数据集,涵盖8种肿瘤类型及健康对照组,包含73,226个MRI切片、约70,000对开放式VQA和约130,000对封闭式VQA。
MM-NeuroOnco is a large-scale multimodal benchmark and instruction dataset tailored for MRI-based brain tumor diagnosis and interpretable reasoning. This dataset emphasizes clinically interpretable reasoning, multimodal integration (including T1, T2, FLAIR, and T1-Contrast modalities), and support for diverse tasks ranging from closed-ended diagnosis to open-ended visual question answering (VQA). The dataset compiles 20 publicly available medical imaging datasets, covering 8 tumor types and healthy control groups, and contains 73,226 MRI slices, approximately 70,000 open-ended VQA pairs, and around 130,000 closed-ended VQA pairs.
创建时间:
2026-02-09
原始信息汇总
MM-NeuroOnco 数据集概述
数据集简介
MM-NeuroOnco 是一个大规模多模态基准和指令数据集,专为基于 MRI 的临床可解释脑肿瘤诊断和推理而设计。该数据集强调临床可解释推理、多模态整合以及多样化任务支持。
核心特点
- 临床可解释推理:涵盖 MRI 物理学、解剖定位、肿瘤形态学和放射学征象提取。
- 多模态整合:利用 T1、T2、FLAIR 和 T1-Contrast 模态。
- 多样化任务支持:从封闭式诊断到开放式视觉问答。
数据集统计
| 指标 | 数量 / 详情 |
|---|---|
| 总 MRI 切片数 | 73,226 |
| 模态 | T1, T2, FLAIR, T1-Contrast |
| 开放式视觉问答对 | ~70,000 对 |
| 封闭式视觉问答对 | ~130,000 对 |
| 银标切片 | 2,472(经人工审核) |
| 基准测试集 | 1,000 张图像 & 3,000 个视觉问答对 |
数据构成与来源
- 聚合了来自 20 个公开可用的医学影像数据集 的数据。
- 涵盖 8 种肿瘤类型 及健康对照。
数据处理流程
采用完全可复现的多阶段标签构建流程,通过严格的“怀疑-保守”双模型方法确保高质量的银标签。
- 双模型银标签提取:利用保守和怀疑提取模式。
- 高精度融合:实施双盲一致性过滤和冲突解决。
- 质量审核:基于外部大语言模型的审核和 MRI 物理一致性检查。
数据访问与托管
由于源数据集的许可限制,数据分三部分分发:
- 基准图像:在 HuggingFace 上托管,需门控访问。
- 访问地址:https://huggingface.co/datasets/gfnnnb/MM-NeuroOnco-Images
- 指令数据集:需要特定申请和批准。
- 受限数据:不重新分发 BraTS 2021 数据。用户必须:
- 在官方 BraTS 网站注册。
- 同意其数据使用条款。
- 独立下载数据。
- 使用本仓库的
data_processing/脚本将其与 JSON 注释对齐。
仓库结构
MM-NeuroOnco/ ├── benchmark/ # 评估基准 │ ├── closed/ # 封闭式 JSON 文件 │ ├── open/ # 开放式 JSON 文件 │ └── splits/ # 训练/验证/测试划分 ├── data_processing/ # 元数据提取和预处理脚本 ├── pipeline/ # 多模型银标签流程代码 ├── evaluation/ # 评估脚本(准确率、BLEU、ROUGE 等) ├── docs/ # 文档和治理 └── assets/ # README 图片
许可与伦理
- 代码与注释:仅限研究使用。
- 医学图像:受其各自源数据集(TCIA, BraTS 等)的原始许可管辖。
- 免责声明:该数据集严格用于学术研究,不用于临床部署或医疗决策。
搜集汇总
数据集介绍

构建方式
在神经影像学领域,构建高质量的多模态数据集对于推动脑肿瘤诊断研究至关重要。MM-NeuroOnco通过一个完全可复现的多阶段标签构建流程精心构建而成,该流程采用“怀疑-保守”双模型策略以确保标签的高精度。首先,利用保守与怀疑两种提取模式从原始数据中生成初始银标签;随后,通过双盲一致性过滤与冲突解决机制进行高精度融合;最后,借助外部大型语言模型审计与MRI物理一致性检查完成质量审核,从而形成一套严谨且可靠的标注体系。
使用方法
针对不同研究需求,数据集的使用需遵循其特定的访问与处理规范。基准图像部分可通过HuggingFace平台的门控访问获取;而完整的指令数据集则需要提交申请并获批准后方可使用。对于包含BraTS 2021数据的受限部分,用户必须先在官方网站注册并同意使用条款,独立下载原始数据后,再利用项目提供的数据处理脚本将其与JSON标注对齐。整个数据集严格限于学术研究用途,不可用于临床决策,确保了其在符合伦理与许可框架下的合理应用。
背景与挑战
背景概述
在神经影像学与人工智能交叉领域,脑肿瘤的精准诊断一直是临床实践与科研探索的核心议题。MM-NeuroOnco数据集作为一个大规模多模态基准与指令数据集,由研究团队于近期构建,旨在推动基于磁共振成像(MRI)的脑肿瘤诊断向可解释推理方向发展。该数据集整合了来自20个公开医学影像数据源的资源,涵盖T1、T2、FLAIR及T1-Contrast等多模态影像,并支持从封闭式诊断到开放式视觉问答的多样任务。其设计不仅聚焦于肿瘤类型的分类,更强调临床可解释性,涉及MRI物理原理、解剖定位、肿瘤形态学及放射学征象提取等多维度推理,为开发下一代智能诊断模型提供了关键基础设施。
当前挑战
该数据集致力于解决脑肿瘤多模态MRI诊断中的可解释性推理挑战,传统方法往往局限于图像分类,而MM-NeuroOnco需在复杂临床语境下实现属性提取、因果推断及开放问答,这对模型的跨模态融合与逻辑推理能力提出了更高要求。在构建过程中,团队面临多源数据集成与标准化难题,包括不同数据集的异质性协议、模态对齐及隐私许可限制;此外,通过‘怀疑-保守’双模型管道生成高质量银标签需克服噪声过滤、冲突消解与外部审计等环节,确保医学标注的精确性与一致性,这些挑战共同塑造了数据集的严谨架构。
常用场景
经典使用场景
在神经肿瘤学与医学影像分析领域,MM-NeuroOnco数据集为基于多模态磁共振成像(MRI)的脑肿瘤诊断与可解释推理提供了标准化的评估基准。该数据集整合了T1、T2、FLAIR及T1-Contrast四种模态的影像数据,并构建了涵盖封闭式诊断与开放式视觉问答(VQA)的丰富任务体系。研究者通常利用其大规模标注数据,训练和验证模型在肿瘤类型识别、解剖定位、形态学特征提取等方面的性能,尤其注重模型推理过程的临床可解释性,从而推动人工智能在医学影像分析中的透明化与可靠性发展。
解决学术问题
MM-NeuroOnco致力于解决医学人工智能研究中模型可解释性不足、多模态信息融合困难以及标注数据稀缺等核心问题。通过提供超过20万对视觉问答数据及详尽的链式思维(CoT)解释,该数据集使研究者能够深入探索模型在MRI物理特性、肿瘤形态与放射学征象之间的关联推理。其高质量银标标注流程与多阶段验证机制,有效缓解了医学影像领域标注成本高昂、专家依赖度强的瓶颈,为开发兼具高精度与临床可信度的诊断模型奠定了数据基础。
实际应用
在实际临床辅助诊断与医学教育场景中,MM-NeuroOnco可作为训练智能诊断系统的重要数据资源。其涵盖八种常见脑肿瘤类型及健康对照的影像,能够支持构建辅助放射科医生进行病灶检测、鉴别诊断与预后评估的工具。此外,数据集中丰富的视觉问答对与解释性标注,可用于开发交互式医学教育平台,帮助医学生与住院医师理解MRI影像的判读逻辑,提升其在神经肿瘤影像诊断方面的实践能力。
数据集最近研究
最新研究方向
在神经影像与人工智能交叉领域,MM-NeuroOnco数据集正推动脑肿瘤诊断向可解释、多模态融合的前沿方向演进。该数据集整合了T1、T2、FLAIR及T1-Contrast等多序列MRI影像,并构建了涵盖解剖定位、肿瘤形态与影像物理学特征的链式推理标注,为视觉问答与诊断解释任务提供了坚实基础。当前研究热点集中于利用其大规模指令数据,开发能够模拟临床决策过程的端到端多模态大模型,这些模型不仅追求诊断准确性,更强调通过可解释的推理路径增强医生信任度。数据集的银标签构建流程与高质量基准测试,进一步促进了人工智能在神经肿瘤学中的可靠应用,为个性化医疗与辅助诊断系统的创新奠定了关键数据支撑。
以上内容由遇见数据集搜集并总结生成



