Brain_MRI_Dataset

Hugging Face2026-05-18 更新2026-05-21 收录

下载链接：

https://huggingface.co/datasets/KRMayD/Brain_MRI_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个精心整理的集合，包含2D脑部MRI图像、对应的肿瘤分割掩码以及粗粒度的正面描述文本。它专为医学视觉-语言和分割实验而构建，特别适用于需要关联MRI图像、其病变掩码以及可见肿瘤形态文本描述的任务。数据集共包含22,150个图像-掩码-描述三元组，整合自六个公开或本地重建的脑部MRI分割数据源：BRISC2025_segmentation（4,793对）、BraTS16_MMNeuroOnco（5,000对）、Brain_Tumor_Classification_2D_masked（3,166对）、Figshare_from_mat_all（3,064对）、MMNeuroOnco_tumor_14_t1ce_mask（3,064对）和MMNeuroOnco_tumor_19_mask（3,063对）。主索引文件为CSV格式，包含三列：image_path（指向MRI图像的相对路径）、mask_path（指向肿瘤分割掩码的相对路径）和caption（从MM-NeuroOnco元数据的coarse_description字段提取的正面粗粒度描述）。这些描述文本涵盖了肿瘤相关的粗粒度属性，如肿瘤类型、成像模态、近似位置、大小、形状和扩散模式（当可用时）。数据集适用于多种研究实验，包括基于脑部MRI图像的肿瘤分割、使用图像-掩码-描述三元组的视觉-语言对齐、基于医学图像-文本对的DPO或偏好学习、弱监督或提示引导的分割，以及评估视觉编码器是否保留病变相关信息。需要注意的是，描述文本为粗粒度描述，并非完整的放射学报告；掩码来自可用的源标注或转换文件，不同子集的掩码约定可能不同；数据集仅用于研究目的，不得用于临床决策。

This dataset is a carefully curated collection containing 2D brain MRI images, corresponding tumor segmentation masks, and coarse-grained positive descriptive text. It is specifically designed for medical vision-language and segmentation experiments, particularly suitable for tasks that require associating MRI images, their lesion masks, and textual descriptions of visible tumor morphology. The dataset comprises a total of 22,150 image-mask-description triplets, integrated from six publicly available or locally reconstructed brain MRI segmentation data sources: BRISC2025_segmentation (4,793 pairs), BraTS16_MMNeuroOnco (5,000 pairs), Brain_Tumor_Classification_2D_masked (3,166 pairs), Figshare_from_mat_all (3,064 pairs), MMNeuroOnco_tumor_14_t1ce_mask (3,064 pairs), and MMNeuroOnco_tumor_19_mask (3,063 pairs). The main index file is in CSV format and includes three columns: image_path (relative path to the MRI image), mask_path (relative path to the tumor segmentation mask), and caption (positive coarse-grained description extracted from the coarse_description field of MM-NeuroOnco metadata). These descriptive texts cover coarse-grained tumor-related attributes such as tumor type, imaging modality, approximate location, size, shape, and diffusion patterns (when available). The dataset is applicable to various research experiments, including tumor segmentation based on brain MRI images, vision-language alignment using image-mask-description triplets, DPO or preference learning based on medical image-text pairs, weakly supervised or prompt-guided segmentation, and evaluating whether visual encoders retain lesion-related information. It is important to note that the descriptive texts are coarse-grained and not complete radiology reports; masks are derived from available source annotations or conversion files, and mask conventions may differ across subsets; the dataset is intended for research purposes only and should not be used for clinical decision-making.

创建时间：

2026-05-08

搜集汇总

数据集介绍

构建方式

该数据集汇集了来自六个不同来源的脑部MRI影像及其对应的肿瘤分割掩码，并通过映射MM-NeuroOnco元数据中的`coarse_description`字段，为每对图像-掩码配以粗粒度文本描述。构建过程中，首先提取各子集中22,150对图像与掩码，随后依据预设的映射规则，将本地图像文件与元数据条目精确匹配，最终生成包含图像路径、掩码路径及描述的三元组CSV文件。所有描述均源自现有元数据，未额外生成，确保信息一致性。

特点

数据集的核心特点在于其多模态对齐特性，将脑部MRI影像、肿瘤分割掩码与自然语言描述有机结合，形成图像-掩码-文本三元组。其描述聚焦于肿瘤的粗粒度形态学特征，如类型、位置、大小、形状及扩散模式，而非完整的影像报告。数据涵盖多种肿瘤类别与MRI模态，来源多样，且各子集掩码格式与注释标准可能存在差异，为跨域研究提供了丰富但需谨慎处理的资源。

使用方法

研究者可通过加载主CSV文件便捷地访问数据，每条记录包含图像、掩码及描述的文件路径。典型应用包括使用Pandas读取数据框后，依据路径加载对应图像与掩码，并获取文本描述，用于肿瘤分割、视觉-语言对齐、偏好学习或弱监督分割等实验。建议在加载时注意路径前缀的拼接，并验证各子集掩码的格式一致性，以确保后续处理流程的准确性。

背景与挑战

背景概述

脑部磁共振成像（MRI）是神经肿瘤学中诊断与评估肿瘤的关键影像学手段，然而，现有的公开数据集往往仅提供孤立的图像或分割掩膜，缺乏将影像、病灶掩膜与语义描述三者关联的多模态资源。为此，研究人员于近期构建了Brain_MRI_Dataset，这是一个汇聚了来自BRISC2025、BraTS16、Figshare等多个公开来源的22,150组二维脑部MRI图像-肿瘤分割掩膜-粗粒度描述三元组的数据集。该数据集旨在弥合医学视觉与语言模型之间的鸿沟，为肿瘤分割、视觉-语言对齐以及弱监督学习等前沿研究提供了基础资源，其独特的图文配对结构有望推动医学影像分析与自然语言处理的交叉领域发展。

当前挑战

该数据集面临的挑战首先体现在领域问题层面：脑部肿瘤形态多样、边界模糊且存在类间相似性，使得自动化分割与精确描述极为困难，传统图像分类任务难以直接迁移至这类医学影像理解场景。此外，在数据构建过程中，研究者需整合来自六个不同来源的异构数据，这些来源的成像协议、分辨率、标注规范及掩膜生成逻辑存在显著差异，统一映射至MM-NeuroOnco元数据时需设计复杂的匹配规则。粗粒度描述虽来源于结构化元数据，但缺乏自由形式临床报告的细腻度，可能限制模型对肿瘤细节的捕捉能力，最终数据质量高度依赖原始标注的一致性与准确性。

常用场景

经典使用场景

在医学影像分析的研究疆域中，脑部MRI图像的分割与理解始终是核心课题之一。Brain_MRI_Dataset为这一领域提供了珍贵的多模态数据资源，其经典使用场景聚焦于脑肿瘤分割任务。研究者可借助该数据集中精确的肿瘤掩膜，训练和评估深度学习模型对病灶区域的像素级识别能力，从而实现对肿瘤边界、形态与位置的自动勾勒。此外，该数据集独有的图像-掩膜-文本三元组结构，使其成为探索视觉-语言对齐技术的理想平台，尤其在医学影像与语义描述间建立映射关系的实验中扮演关键角色。

解决学术问题

该数据集精准回应了脑肿瘤MRI分析中几个长期存在的学术挑战。其提供的粗粒度文本描述弥补了传统影像数据集缺乏语义信息的短板，使得研究者能够探究弱监督分割与提示引导分割等前沿范式，降低对密集标注的依赖。同时，通过整合来自多个公开来源的2D脑MRI图像与掩膜，数据集有效缓解了医学影像领域常见的样本量不足问题，为模型泛化性与鲁棒性的系统评估提供了坚实的数据基础。这些特性有力地推动了医学影像与自然语言处理交叉领域的方法论创新。

衍生相关工作

围绕该数据集已衍生了多个富有影响力的研究方向。经典的U-Net及其变体架构在此数据集上被广泛验证，成为脑肿瘤分割任务的基准模型。基于视觉-语言预训练范式的工作，诸如将CLIP模型适配至医学影像领域，利用该数据集的图文对进行对比学习，以增强视觉编码器对病灶语义特征的捕获能力。此外，偏好学习与直接偏好优化策略也被引入，用于对图像-文本生成模型进行微调，使其能够生成更精准、更符合临床逻辑的肿瘤描述，这些研究共同推动了医学多模态学习的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集