bilalahmad176176/BrainAge-Golden-Raw
收藏Hugging Face2026-04-24 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/bilalahmad176176/BrainAge-Golden-Raw
下载链接
链接失效反馈官方服务:
资源简介:
精心整理的6,152个健康大脑T1加权MRI扫描集合,年龄范围从0到86岁,来自12个公共神经影像数据集。数据集分为两个部分:Golden-0-to-25/包含4,782个样本,年龄范围0-25岁,大小约42 GB;Golden-25plus/包含1,370个样本,年龄范围25-86岁,大小约13 GB。每个扫描文件为.nii.gz格式的NIfTI文件(原生空间,T1w)。清单文件(manifest.csv)列出了受试者ID、来源数据集、实际年龄、性别、分割和文件路径。预期用途是训练和评估健康对照组的脑龄预测模型。
Curated collection of 6,152 healthy-brain T1-weighted MRI scans spanning ages 0–86 years, assembled from 12 public neuroimaging datasets. The dataset is divided into two parts: Golden-0-to-25/ contains 4,782 samples with age range 0-25 years, size ~42 GB; Golden-25plus/ contains 1,370 samples with age range 25-86 years, size ~13 GB. Each scan is a .nii.gz NIfTI file (native space, T1w). Manifests (manifest.csv) list subject IDs, dataset of origin, chronological age, sex, split, and file paths. Intended use is for training and evaluating brain-age prediction models on healthy controls.
提供机构:
bilalahmad176176
搜集汇总
数据集介绍

构建方式
该数据集由BrainAge团队精心构建,汇集了来自12个公开神经影像数据源的6,152例健康人脑T1加权MRI扫描,覆盖年龄范围从0至86岁。原始数据以NIfTI格式(.nii.gz)存储于原生空间,并依据年龄划分为两个子集:Golden-0-to-25(4,782例,0–25岁)和Golden-25plus(1,370例,25–86岁),总计约55 GB。每份扫描均附有清单文件(manifest.csv),详细记录受试者ID、来源数据集、实际年龄、性别及所属子集,确保了数据溯源与元数据的完整性。
特点
该数据集的核心特点在于其严格的健康受试者筛选标准与跨年龄段的广泛覆盖,专为脑龄预测模型的训练与评估而设计。聚集了BCP、Calgary、IXI等多个知名数据集,体现了多中心、多源数据融合的综合性优势。此外,数据采用统一格式并保留原生空间信息,减少了预处理带来的偏差,同时公开可用的元数据字段(如年龄、性别、来源)支持多维度的分析需求,为神经影像学研究提供了高质量、标准化的基准测试集。
使用方法
研究者可直接使用本数据集进行基于T1加权MRI的脑龄预测任务,利用清单文件(manifest.csv)快速解析受试者信息与文件路径,适用于图像分类或其他回归模型输入。建议在模型训练前对NIfTI图像进行必要的预处理(如配准、偏置场校正),但保留原生空间以维持数据原始特性。数据集按年龄分为两个子集,便于针对不同年龄段进行专项建模或跨年龄段泛化能力评估。使用时需引用各源数据集对应的原始研究文献,遵循CC-BY-NC-4.0许可协议。
背景与挑战
背景概述
脑龄预测是神经影像学领域的一个重要研究方向,旨在通过磁共振成像数据推断个体的大脑成熟或老化状态,为神经发育与神经退行性疾病提供生物标志物。BrainAge-Golden-Raw数据集由多个国际公开神经影像数据集整合而成,包含6152例健康个体的T1加权MRI扫描,年龄覆盖从0岁至86岁的全生命周期,跨越儿科与成人阶段。该数据集由BCP、Calgary、IXI、ABIDE等12个知名数据源协同汇编,于近年公开发布,主要研究机构集中于神经影像计算与脑发育分析领域。其核心研究问题在于构建和评估基于健康对照的脑龄预测模型,从而建立可靠的正常脑老化基准。该数据集为脑龄预测模型的训练提供了高样本量、广泛年龄跨度的标准化数据,推动了脑龄相关研究从单一数据集向多中心、多样本融合的范式转变,对理解脑发育与衰老的影像学表征具有重要影响力。
当前挑战
该数据集所应对的领域挑战在于脑龄预测模型在跨年龄、跨数据集场景下的泛化能力,需克服不同采集设备、扫描参数及人群异质性带来的影像特征漂移。构建过程中面临的核心难题包括:1)多源数据标准化:来自12个公共数据集的T1加权影像在空间分辨率、信噪比及头动伪影上存在显著差异,需统一预处理流程以降低非生物学变异;2)年龄分布不均衡:0至25岁新生儿与儿童样本(4782例)远超25岁以上成人样本(1370例),导致模型对高龄段预测偏差加剧;3)健康对照定义的一致性:不同原始数据集对“健康”的纳入标准各异,部分可能隐含未报告的亚临床神经异常,需严格过滤以维护标签纯净性;4)大规模数据管理:约55GB的NIfTI文件需高效组织和元数据关联,实现跨数据的轨迹追踪与可复现性保障。
常用场景
经典使用场景
脑龄预测是神经影像学领域一项具有深远意义的任务,旨在从结构磁共振成像(T1w MRI)中推断个体的生物学年龄。BrainAge-Golden-Raw数据集汇集了来自12个公开神经影像数据库的6,152例健康大脑扫描,覆盖从新生儿到86岁高龄的完整生命周期。该数据集可直接用于训练回归模型,通过提取皮层厚度、脑区体积、灰质密度等形态学特征,实现对个体真实年龄的精准估计。研究者在预处理后,常采用三维卷积神经网络(3D-CNN)、Vision Transformer或图神经网络(GNN)等架构,将原始T1w图像作为输入,输出连续的年龄预测值。该数据集干净、高质量的标注使其成为验证不同模型泛化能力和鲁棒性的理想基准,尤其适用于评估模型在不同年龄阶段、不同扫描仪协议下的预测稳定性。
解决学术问题
在认知神经科学和衰老研究中,脑龄预测为揭示大脑发育与衰老的生物学基础提供了关键工具。该数据集通过提供大规模、严格筛选的健康对照样本,帮助学术界解决了两个核心难题:一是缺乏统一样本来源导致的模型过拟合问题,二是跨数据集验证时因扫描参数差异引发的域偏移问题。基于该数据集的方法能够量化实际年龄与预测脑龄之间的差异(即脑龄差距,Brain-Age Gap),这一指标已被广泛用于探索神经发育性疾病(如自闭症、注意力缺陷多动障碍)、神经退行性疾病(如阿尔茨海默病)以及精神分裂症等病理状态下的异常老化模式。该数据集的出现不仅推动了脑龄预测从单一数据集走向多中心验证的范式转变,还为理解正常衰老轨迹与疾病过程中的脑结构变化提供了可靠的数据基石。
衍生相关工作
围绕BrainAge-Golden-Raw数据集,学术界已衍生出一系列具有影响力的经典工作。在模型架构方面,研究者提出了多种改进方案,包括引入注意力机制的3D-ResNet、融合拓扑信息的图卷积网络,以及利用对比学习约束潜在空间分布的脑龄预测框架。在训练策略上,数据驱动的年龄分箱回归与基于不确定性加权的多任务学习方法被有效应用于提升预测精度。此外,该数据集催生了多个基准工作,例如系统地比较了不同预处理流程(如SBM、VBM及深度学习端到端方法)对脑龄预测性能的影响,并建立了跨数据集、跨性别的标准化评估协议。在应用层面,基于该数据集训练的脑龄预测器已被迁移至其他公开数据集,用于儿童发育异常的早期筛查与精神疾病患者脑老化偏离度的量化分析,成为神经影像机器学习领域不可或缺的参考资源。
以上内容由遇见数据集搜集并总结生成



