openbrain_v1_0

Hugging Face2026-05-04 更新2026-05-05 收录

下载链接：

https://huggingface.co/datasets/openbrain-anon/openbrain_v1_0

下载链接

链接失效反馈

官方服务：

资源简介：

OpenBrain v1.0 是一个公开可用的数据集，包含经过大脑提取的 T1 加权 MRI 图像、SynthStrip 生成的大脑掩膜以及自动化全脑分割标签。该数据集共包含 35,838 个案例，源自 607 个 OpenNeuro 数据集，采用 CC0 许可协议。每个案例提供以下文件：经过修订的大脑提取 T1w 图像（image.nii.gz）、SynthStrip 生成的大脑掩膜（brain_mask.nii.gz）以及自动化全脑分割标签（whole_brain_segmentation.nii.gz）。所有案例均来自原始 T1w 图像，这些图像与经过验证的公共 OpenNeuro 快照完全匹配，并具有 CC0/公共领域兼容的许可元数据。需要注意的是，分割标签为算法生成，非人工标注的真实标签。数据集排除了非 CC0 许可、缺少 OpenNeuro 来源、需人工审核许可状态、原始 BIDS 匹配不明确或缺少原始 T1w 匹配的案例。

OpenBrain v1.0 is a publicly available dataset containing brain-extracted T1-weighted MRI images, SynthStrip-generated brain masks, and automated whole-brain segmentation labels. The dataset comprises 35,838 cases derived from 607 OpenNeuro datasets, released under the CC0 license. Each case provides the following files: a revised brain-extracted T1w image (image.nii.gz), a SynthStrip-generated brain mask (brain_mask.nii.gz), and an automated whole-brain segmentation label (whole_brain_segmentation.nii.gz). All cases originate from original T1w images that exactly match verified public OpenNeuro snapshots and have CC0/public domain-compatible license metadata. It is important to note that the segmentation labels are algorithm-generated and not manually annotated ground truth. The dataset excludes cases with non-CC0 licenses, missing OpenNeuro provenance, requiring manual license review, ambiguous original BIDS matches, or missing original T1w matches.

创建时间：

2026-05-04

原始信息汇总

OpenBrain v1.0 数据集概述

基本信息

数据集名称：OpenBrain v1.0
许可证：CC0（公共领域）
数据规模：35,838 个案例
来源：来自 607 个 OpenNeuro 数据集

数据内容

每个案例包含以下三个文件：

image.nii.gz：经过修订的脑提取 T1w 图像
brain_mask.nii.gz：基于 SynthStrip 生成的脑掩膜
whole_brain_segmentation.nii.gz：自动全脑分割标签（算法生成，非人工标注）

目录结构

cases/<case_id>/image.nii.gz cases/<case_id>/brain_mask.nii.gz cases/<case_id>/whole_brain_segmentation.nii.gz metadata/openbrain_v1_0_metadata.csv metadata/sha256_manifest.csv sample/cases/<case_id>/...

重要说明

所有案例均来自已核实为 CC0 或公共领域兼容许可证的 OpenNeuro 快照
分割标签为算法自动生成结果，非人工标注真值
已排除非 CC0 许可证、缺少 OpenNeuro 来源、手动审核许可证状态、原始 BIDS 匹配不明确或缺少原始 T1w 匹配的案例
不包含 OpenMind 来源的质量评分和掩膜

搜集汇总

数据集介绍

构建方式

OpenBrain v1.0源自对607个公开OpenNeuro数据集的系统性筛选，严格匹配了具有CC0公共领域兼容许可的原始T1加权MRI图像。研究团队剔除了非CC0许可、缺乏OpenNeuro来源或原始BIDS匹配模糊的病例，最终汇集35,838例高质量脑部影像数据。每份病例均经过脑提取处理，并运用SynthStrip算法生成脑掩膜，同时基于全自动分割算法输出全脑分割标签，所有标签均为算法推导结果而非人工金标准，确保了大样本数据构建的一致性与可复现性。

特点

该数据集的核心优势在于其严苛的许可筛选与标准化处理流程。全部35,838例数据均来自CC0许可的公开数据集，无版权限制，极大促进了医学影像研究的开放共享。每例包含三类核心文件：经修订的脑提取T1w图像、SynthStrip脑掩膜以及全脑自动分割标签，覆盖从原始影像到结构化标注的完整链条。数据组织采用分层目录结构，并附带元数据CSV与SHA256校验清单，便于大规模检索与完整性验证。

使用方法

用户可通过Hugging Face Datasets库或直接下载访问数据集。数据按cases目录组织，每个子文件夹对应唯一病例ID，内含image.nii.gz、brain_mask.nii.gz及whole_brain_segmentation.nii.gz三个NIfTI格式文件。元数据文件openbrain_v1_0_metadata.csv提供病例来源与质量信息，sha256_manifest.csv用于校验文件完整性。建议使用支持NIfTI的Python库（如nibabel）加载影像，并配合标准神经影像分析管线进行后续处理或模型训练。

背景与挑战

背景概述

OpenBrain v1.0数据集由国际神经影像社区于近期构建并发布，整合了来自607个OpenNeuro数据集的35,838例脑部T1加权MRI图像及其衍生数据。该数据集的核心研究问题在于提供大规模、标准化、许可证统一的脑影像预处理资源，以推动全脑分割算法的可重复性研究。通过采用SynthStrip自动脑提取与全脑分割流程，OpenBrain v1.0为研究者提供了可直接使用的脑掩膜与分割标签，显著降低了神经影像预处理的计算门槛。其CC0许可证策略特别促进了数据共享与二次利用，在开放科学领域具有里程碑意义，尤其为深度学习模型的训练与评估提供了高质量基准数据集。

当前挑战

当前数据集面临的核心挑战包括：1）领域问题层面——脑影像分割任务受个体解剖变异、扫描参数差异及病理状态影响，自动算法在无病灶标注场景下难以保证临床级精度，且SynthStrip生成的标签属于算法输出而非人工金标准，可能引入系统性偏差；2）构建过程中——需严格筛选来自607个开源数据集的CC0许可图像，排除了大量非兼容许可证或元数据不完整的样本，导致数据覆盖偏向特定采集协议与人群，可能限制模型在多样化临床场景中的泛化能力；此外，缺失手动审核的许可证状态与原始质量评分，增加了数据使用的不确定性风险。

常用场景

经典使用场景

OpenBrain v1.0作为迄今为止规模最大的公开脑部MRI数据集之一，汇集了来自607个OpenNeuro数据集的35,838例脑提取T1加权图像，其经典使用场景集中于开发与验证全脑分割算法。研究者可基于该数据集提供的SynthStrip脑掩膜与自动化分割标签，训练深度学习模型以实现精准的脑区划分，尤其适用于跨数据集的泛化性测试和标准化处理流程的建立。

衍生相关工作

该数据集衍生出多项开创性工作，包括基于其脑掩膜训练的无监督域适应分割模型、用于增强MRI预处理流程的SynthStrip改进版本，以及结合联邦学习框架的跨机构隐私保护分析范式。与此同时，部分研究者以此为基础构建了脑龄预测的基准任务，并探索了将自动化分割标签作为弱监督信号来生成高质量人工标注的协同模式，显著降低了专业神经解剖学家的人力成本。

数据集最近研究