MM-NeuroOnco

github2026-02-12 更新2026-02-13 收录

下载链接：

https://github.com/gfnnnb/MM-NeuroOnco

下载链接

链接失效反馈

官方服务：

资源简介：

MM-NeuroOnco是一个大规模多模态基准和指令数据集，专为基于MRI的脑肿瘤诊断和可解释推理设计。该项目强调临床可解释推理、多模态集成（T1、T2、FLAIR和T1-Contrast模态）以及多样化任务支持（从封闭式诊断到开放式视觉问答）。数据集汇总了20个公开可用的医学成像数据集，涵盖8种肿瘤类型及健康对照组，包含73,226个MRI切片、约70,000对开放式VQA和约130,000对封闭式VQA。

MM-NeuroOnco is a large-scale multimodal benchmark and instruction dataset tailored for MRI-based brain tumor diagnosis and interpretable reasoning. This dataset emphasizes clinically interpretable reasoning, multimodal integration (including T1, T2, FLAIR, and T1-Contrast modalities), and support for diverse tasks ranging from closed-ended diagnosis to open-ended visual question answering (VQA). The dataset compiles 20 publicly available medical imaging datasets, covering 8 tumor types and healthy control groups, and contains 73,226 MRI slices, approximately 70,000 open-ended VQA pairs, and around 130,000 closed-ended VQA pairs.

创建时间：

2026-02-09

原始信息汇总

MM-NeuroOnco 数据集概述

数据集简介

MM-NeuroOnco 是一个大规模多模态基准和指令数据集，专为基于 MRI 的临床可解释脑肿瘤诊断和推理而设计。该数据集强调临床可解释推理、多模态整合以及多样化任务支持。

核心特点

临床可解释推理：涵盖 MRI 物理学、解剖定位、肿瘤形态学和放射学征象提取。
多模态整合：利用 T1、T2、FLAIR 和 T1-Contrast 模态。
多样化任务支持：从封闭式诊断到开放式视觉问答。

数据集统计

指标	数量 / 详情
总 MRI 切片数	73,226
模态	T1, T2, FLAIR, T1-Contrast
开放式视觉问答对	~70,000 对
封闭式视觉问答对	~130,000 对
银标切片	2,472（经人工审核）
基准测试集	1,000 张图像 & 3,000 个视觉问答对

数据构成与来源

聚合了来自 20 个公开可用的医学影像数据集 的数据。
涵盖 8 种肿瘤类型 及健康对照。

数据处理流程

采用完全可复现的多阶段标签构建流程，通过严格的“怀疑-保守”双模型方法确保高质量的银标签。

双模型银标签提取：利用保守和怀疑提取模式。
高精度融合：实施双盲一致性过滤和冲突解决。
质量审核：基于外部大语言模型的审核和 MRI 物理一致性检查。

数据访问与托管

由于源数据集的许可限制，数据分三部分分发：

基准图像：在 HuggingFace 上托管，需门控访问。
- 访问地址：https://huggingface.co/datasets/gfnnnb/MM-NeuroOnco-Images
指令数据集：需要特定申请和批准。
受限数据：不重新分发 BraTS 2021 数据。用户必须：
- 在官方 BraTS 网站注册。
- 同意其数据使用条款。
- 独立下载数据。
- 使用本仓库的 data_processing/ 脚本将其与 JSON 注释对齐。

仓库结构

MM-NeuroOnco/ ├── benchmark/ # 评估基准 │ ├── closed/ # 封闭式 JSON 文件 │ ├── open/ # 开放式 JSON 文件 │ └── splits/ # 训练/验证/测试划分 ├── data_processing/ # 元数据提取和预处理脚本 ├── pipeline/ # 多模型银标签流程代码 ├── evaluation/ # 评估脚本（准确率、BLEU、ROUGE 等） ├── docs/ # 文档和治理 └── assets/ # README 图片

许可与伦理

代码与注释：仅限研究使用。
医学图像：受其各自源数据集（TCIA, BraTS 等）的原始许可管辖。
免责声明：该数据集严格用于学术研究，不用于临床部署或医疗决策。

搜集汇总

数据集介绍

构建方式

在神经影像学领域，构建高质量的多模态数据集对于推动脑肿瘤诊断研究至关重要。MM-NeuroOnco通过一个完全可复现的多阶段标签构建流程精心构建而成，该流程采用“怀疑-保守”双模型策略以确保标签的高精度。首先，利用保守与怀疑两种提取模式从原始数据中生成初始银标签；随后，通过双盲一致性过滤与冲突解决机制进行高精度融合；最后，借助外部大型语言模型审计与MRI物理一致性检查完成质量审核，从而形成一套严谨且可靠的标注体系。

使用方法

针对不同研究需求，数据集的使用需遵循其特定的访问与处理规范。基准图像部分可通过HuggingFace平台的门控访问获取；而完整的指令数据集则需要提交申请并获批准后方可使用。对于包含BraTS 2021数据的受限部分，用户必须先在官方网站注册并同意使用条款，独立下载原始数据后，再利用项目提供的数据处理脚本将其与JSON标注对齐。整个数据集严格限于学术研究用途，不可用于临床决策，确保了其在符合伦理与许可框架下的合理应用。

背景与挑战

背景概述

在神经影像学与人工智能交叉领域，脑肿瘤的精准诊断一直是临床实践与科研探索的核心议题。MM-NeuroOnco数据集作为一个大规模多模态基准与指令数据集，由研究团队于近期构建，旨在推动基于磁共振成像（MRI）的脑肿瘤诊断向可解释推理方向发展。该数据集整合了来自20个公开医学影像数据源的资源，涵盖T1、T2、FLAIR及T1-Contrast等多模态影像，并支持从封闭式诊断到开放式视觉问答的多样任务。其设计不仅聚焦于肿瘤类型的分类，更强调临床可解释性，涉及MRI物理原理、解剖定位、肿瘤形态学及放射学征象提取等多维度推理，为开发下一代智能诊断模型提供了关键基础设施。

当前挑战

该数据集致力于解决脑肿瘤多模态MRI诊断中的可解释性推理挑战，传统方法往往局限于图像分类，而MM-NeuroOnco需在复杂临床语境下实现属性提取、因果推断及开放问答，这对模型的跨模态融合与逻辑推理能力提出了更高要求。在构建过程中，团队面临多源数据集成与标准化难题，包括不同数据集的异质性协议、模态对齐及隐私许可限制；此外，通过‘怀疑-保守’双模型管道生成高质量银标签需克服噪声过滤、冲突消解与外部审计等环节，确保医学标注的精确性与一致性，这些挑战共同塑造了数据集的严谨架构。

常用场景

经典使用场景

在神经肿瘤学与医学影像分析领域，MM-NeuroOnco数据集为基于多模态磁共振成像（MRI）的脑肿瘤诊断与可解释推理提供了标准化的评估基准。该数据集整合了T1、T2、FLAIR及T1-Contrast四种模态的影像数据，并构建了涵盖封闭式诊断与开放式视觉问答（VQA）的丰富任务体系。研究者通常利用其大规模标注数据，训练和验证模型在肿瘤类型识别、解剖定位、形态学特征提取等方面的性能，尤其注重模型推理过程的临床可解释性，从而推动人工智能在医学影像分析中的透明化与可靠性发展。

解决学术问题

MM-NeuroOnco致力于解决医学人工智能研究中模型可解释性不足、多模态信息融合困难以及标注数据稀缺等核心问题。通过提供超过20万对视觉问答数据及详尽的链式思维（CoT）解释，该数据集使研究者能够深入探索模型在MRI物理特性、肿瘤形态与放射学征象之间的关联推理。其高质量银标标注流程与多阶段验证机制，有效缓解了医学影像领域标注成本高昂、专家依赖度强的瓶颈，为开发兼具高精度与临床可信度的诊断模型奠定了数据基础。

实际应用

在实际临床辅助诊断与医学教育场景中，MM-NeuroOnco可作为训练智能诊断系统的重要数据资源。其涵盖八种常见脑肿瘤类型及健康对照的影像，能够支持构建辅助放射科医生进行病灶检测、鉴别诊断与预后评估的工具。此外，数据集中丰富的视觉问答对与解释性标注，可用于开发交互式医学教育平台，帮助医学生与住院医师理解MRI影像的判读逻辑，提升其在神经肿瘤影像诊断方面的实践能力。

数据集最近研究