Index of Neuroimaging Datasets for Visual Perception Reconstruction

github2026-03-10 更新2026-03-06 收录

下载链接：

https://github.com/seelikat/neuro-visual-reconstruction-dataset-index

下载链接

链接失效反馈

官方服务：

资源简介：

该存储库索引了用于从人类fMRI数据重建视觉感知的开放神经影像数据集。本指南主要针对可能不熟悉神经影像方法的AI和机器学习背景的研究人员。

This repository indexes open neuroimaging datasets designed for reconstructing visual perception from human fMRI data. This guide is primarily targeted at researchers with an AI or machine learning background who may not be familiar with neuroimaging methods.

创建时间：

2026-03-04

原始信息汇总

神经影像视觉感知重建数据集索引概述

数据集索引简介

此索引汇总了用于从人类功能磁共振成像（fMRI）数据重建视觉感知的开放神经影像数据集。该指南主要面向可能不熟悉神经影像方法的人工智能和机器学习背景的研究者，旨在帮助其避免在重建研究中因误解fMRI数据性质或数据集局限性而导致的常见陷阱。

核心概念辨析

解码：从大脑活动模式预测（分类）预定义的标签或认知状态。这是一个封闭标签/类别集上的分类问题，难度较低。
识别：基于大脑活动从有限候选集中选择所呈现的刺激。这是一个在预定义有限集内的选择问题，难度中等。
重建：从大脑活动重建刺激本身，并能够泛化到训练集之外的新颖刺激。这是一个开放、无限感知集合上的生成性逆问题，难度较高。

重建数据集的评估标准

训练-测试独立性：训练和测试刺激应在视觉和语义上显著不同。
刺激多样性：数据集需具备足够的语义多样性，以支持模型泛化。
视野覆盖范围：更大的刺激（更高的视野覆盖率）能激活更大范围的视觉皮层，通常更有利于重建。
体素大小：记录的空间分辨率，更高场强的扫描仪允许更小的体素，从而实现更精细的分析。
注视要求：大多数实验要求参与者在刺激呈现期间注视屏幕中心点，以控制视网膜拓扑映射的影响。自由观看数据集的重建研究需谨慎。
重复次数与信噪比：多次重复呈现测试刺激并进行平均有助于提高信号质量和模式可靠性。
受试者数量：功能组织的精细结构在个体间差异很大。许多重建项目倾向于选择对少数健康个体呈现大量图像的数据集。
版权与刺激文件可获取性：重建需要访问原始图像或视频。因版权限制无法重新分发刺激材料的数据集在实践中可能难以使用。
预处理中的平滑：空间平滑步骤可能会破坏细粒度的空间信息，重建研究应检查并尽可能避免此步骤。

图像刺激数据集列表

vim-1

刺激类型：自然主义灰度图像。
刺激数量：1750张训练图像，120张测试图像。
注视要求：是。
重复次数：训练：2次，测试：13次。
受试者数量：2。
视野覆盖范围：20°。
大脑区域：视觉皮层V1-V4，外侧枕叶皮层，纹外皮层（未指定区域）。
体素大小：2.0 mm³ 各向同性。
主要出版物：Kay et al., 2008。
数据访问：https://crcns.org/data-sets/vc/vim-1。
备注：被视为“计算视觉神经科学的MNIST”，因其规模小、设计清晰、测试重复次数高（13次）而被广泛用于编码和重建研究。

BRAINS

刺激类型：手写字符。
刺激数量：288张训练图像，72张测试图像。
注视要求：是。
重复次数：训练：2次，测试：2次。
受试者数量：2。
大脑覆盖范围：3T早期视觉皮层。
体素大小：2.0 mm³ 各向同性。
视野覆盖范围：~9°。
感兴趣区域：V1和V2。
主要出版物：Schoenmakers et al., 2013; Schoenmakers et al., 2015。
数据访问：https://doi.org/10.34973/7201-s161。
备注：小型受控数据集，专注于早期视觉皮层（V1–V2）。刺激空间类似MNIST且规模小，重建实验侧重于字符形状细节。

Miyawaki Dataset

刺激类型：10×10像素模式。
刺激数量：训练：440个随机模式；测试：几何形状/字母。
注视要求：是。
重复次数：训练：1次；测试：13次。
受试者数量：2。
大脑覆盖范围：3T部分视觉系统。
感兴趣区域：V1, V2。
视野覆盖范围：~12°。
体素大小：3.0 mm³ 各向同性。
主要出版物：Miyawaki et al., 2008。
数据访问：http://brainliner.jp/data/brainliner/Visual_Image_Reconstruction。
备注：最早从人类fMRI进行明确视觉重建的演示之一。尽管刺激简单，但这种逐像素重建对于重建项目在概念上仍然重要。

BOLD5000

刺激类型：自然主义图像（SUN, COCO, ImageNet）。
刺激数量：~5200张图像。
注视要求：是。
重复次数：大多数1次，113张图像的子集3次以上。
受试者数量：4。
大脑覆盖范围：3T全脑。
感兴趣区域：视觉皮层。
视野覆盖范围：~4.6°。
体素大小：2.0 mm³ 各向同性。
主要出版物：Chang et al., 2019。
数据访问：https://bold5000.org。
备注：大型多样的刺激集，涵盖场景、多物体场景和单物体图像。采用慢速fMRI设计，产生相对干净的单次试验BOLD响应。

Generic Object Decoding

刺激类型：自然物体图像（ImageNet）。
刺激数量：1200张训练图像（150个类别），50张测试图像（50个未见类别）。
注视要求：是。
重复次数：训练：5次，测试：35次。
受试者数量：5。
大脑覆盖范围：3T全脑。
体素大小：3.0 mm³ 各向同性。
视野覆盖范围：12°。
感兴趣区域：视觉皮层（早期和高级视觉区域）。
主要出版物：Horikawa & Kamitani, 2017。
数据访问：https://github.com/KamitaniLab/GenericObjectDecoding。
备注：专门为重建设计。严格的训练-测试类别分离，减少了训练和测试刺激之间的视觉和语义重叠。为评估重建模型能否泛化到训练类别之外提供了有用的基准。

Natural Scenes Dataset

刺激类型：自然彩色图像（MS COCO）。
刺激数量：总计约73,000张独特图像。
注视要求：是。
每名受试者图像数：约10,000张独特图像。
重复次数：训练和测试均为3次。
受试者数量：8。
扫描仪：7T fMRI（高分辨率）。
大脑覆盖范围：全脑。
视野覆盖范围：8.4°。
体素大小：1.8 mm³ 各向同性。
主要出版物：Allen et al., 2022。
数据访问：https://naturalscenesdataset.org。
备注：当前可用最大、质量最高、分辨率最高的人类fMRI数据集之一。广泛用于编码模型、表征分析和大规模脑-DNN比较。标准训练/测试分割包含强烈的语义聚类和训练测试图像之间的高度相似性，可能夸大表观重建性能。

THINGS-fMRI

刺激类型：自然主义物体图像（THINGS数据库）。
刺激数量：8,640张独特图像（720个类别，每类别12张图像）。
注视要求：是。
重复次数：训练1次，测试12次。
受试者数量：3。
大脑覆盖范围：3T全脑。
感兴趣区域：早期和高级视觉皮层（梭状回面孔区、海马旁回位置区、外侧枕叶复合体等）。
视野覆盖范围：~10°。
体素大小：2.0 mm³ 各向同性。
主要出版物：Hebart et al., 2023。
数据访问：https://things-initiative.org。
备注：大型系统采样的物体图像集，旨在研究整个皮层上的物体表征。

cNeuromod-THINGS

刺激类型：自然物体图像（THINGS数据库）。
刺激数量：约4,320张图像（720个类别，每类别6张图像）。
注视要求：是。
重复次数：每张图像约3次。
受试者数量：4。
大脑覆盖范围：3T全脑。
体素大小：约2mm³ 各向同性。
视野覆盖范围：~10°。
主要出版物：St-Laurent et al., 2026。
数据访问：https://zenodo.org/records/17881592。
备注：属于CNeuroMod深度表型分析项目的一部分。由于数据集使用与cNeuromod项目相同的参与者，模型有可能在其所有视觉数据上进行训练。

视频刺激数据集列表

vim-2

刺激类型：自然主义视频（电影片段）。
刺激数量：约7200个训练时间点，540个测试时间点。
注视要求：是。
重复次数：训练（文件中未提供完整信息）。

搜集汇总

数据集介绍

构建方式

在视觉感知重建领域，神经影像数据集的构建遵循严谨的实验设计原则。以vim-1数据集为例，其构建过程涉及两名参与者在固定注视条件下观看自然灰度图像，这些图像呈现于圆形孔径内，训练集包含1750幅图像，测试集则包含120幅图像。为确保信号质量，测试刺激重复呈现13次，而训练刺激重复2次，数据采集采用2.0毫米各向同性体素分辨率，覆盖视觉皮层V1至V4区域。这种设计旨在平衡刺激多样性与信号信噪比，为编码模型和重建研究提供可靠基础。

使用方法

使用这些数据集进行视觉感知重建研究时，需首先关注数据预处理流程，避免空间平滑操作破坏体素级的精细信息。研究者应基于数据集提供的区域兴趣掩模，如早期视觉皮层ROI，构建编码模型或生成式逆问题框架。以BOLD5000数据集为例，其缓慢的fMRI设计允许单试次BOLD响应分析，适合训练重建模型。重要的是，评估模型性能时需采用严格的训练-测试划分，确保测试刺激在语义和视觉上与训练集分离，以验证模型对新颖刺激的泛化能力，避免陷入类别解码的误区。

背景与挑战

背景概述

视觉感知重建神经影像数据集索引项目，聚焦于从人类功能性磁共振成像数据中重建视觉感知这一前沿交叉领域。该索引由神经科学界于近年构建，旨在为人工智能与机器学习背景的研究者提供系统化的开放数据集指南，以规避因对神经影像方法论不熟悉而导致的常见陷阱。其核心研究问题在于如何从大脑活动模式中泛化地重建开放集合的视觉刺激，而非局限于预定义的分类或识别任务。这一努力深刻影响了计算神经科学与人工智能的融合，推动了对于心智解码、梦境可视化等长期科学愿景的实证探索。

当前挑战

该领域面临的核心挑战在于区分重建与解码或识别任务之间的本质差异，真正的重建要求模型能够泛化至训练集之外的全新视觉刺激，而这在无限开放的感知空间中极为困难。在数据集构建层面，诸多挑战亟待解决：训练与测试刺激需在视觉与语义上保持独立，以避免模型仅学习分类已知聚类；刺激多样性不足会限制模型学习的特征空间；视觉场覆盖范围与体素分辨率直接影响信号的信息粒度；实验设计中的注视要求与自由观看范式之间存在权衡，眼动可能引入混淆变量；功能磁共振成像信号固有的低信噪比要求多次重复采样以提升数据质量；个体间功能组织的差异使得跨被试学习成为难点；此外，刺激材料的版权限制与数据预处理中的空间平滑步骤，都可能对重建研究的可行性与结果可靠性构成实质性障碍。

常用场景

经典使用场景

在计算神经科学领域，视觉感知重建数据集的核心应用场景在于构建和验证脑活动到视觉刺激的逆向映射模型。以vim-1数据集为例，其作为该领域的“MNIST基准”，常被用于训练编码模型，通过功能性磁共振成像信号预测被试观看的灰度自然图像。研究者利用其高重复次数的测试刺激，评估模型在有限语义类别下的重建性能，为早期视觉皮层的表征研究提供标准化实验平台。

解决学术问题

这类数据集主要解决了神经表征建模中的泛化能力验证难题。例如Generic Object Decoding数据集通过严格区分的训练与测试类别，迫使模型学习超越已知类别的视觉特征，从而检验重建算法是否真正捕捉到脑活动的语义信息而非简单分类。这有助于辨析解码与重建的本质差异，避免将封闭集分类错误诠释为开放集生成，为理解高级视觉皮层的抽象表征机制提供实证基础。

实际应用

在脑机接口与神经康复领域，视觉重建技术展现出转化潜力。基于BOLD5000等大规模自然图像数据集训练的模型，可应用于辅助通信设备开发，帮助运动功能障碍者通过视觉想象传递信息。此外，该技术为研究梦境与心理意象的神经基础提供方法论支持，通过对比外部刺激与内部生成的大脑活动模式，探索意识状态下视觉体验的编码原理。

数据集最近研究