nsd-flat-cococlip

Hugging Face2026-03-06 更新2026-03-07 收录

下载链接：

https://huggingface.co/datasets/clane9/nsd-flat-cococlip

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含结构化神经影像或行为实验数据，由多个实验会话（session）和试次（trial）组成。核心字段包括：实验对象ID（subject_id）、试次ID（trial_id）、会话ID（session_id）、NSD标识符（nsd_id）、图像格式的神经活动数据（activity）以及浮点型目标值（target）。数据集划分为训练集（32,539样本）、验证集（5,418样本）、测试集（5,390样本）、testid集（5,187样本）和shared1000集（6,404样本），总大小约937MB。数据文件按分割类型存储在指定路径下，适用于脑机接口、神经解码或视觉编码模型训练等任务。

创建时间：

2026-02-28

原始信息汇总

数据集概述

基本信息

数据集名称: nsd-flat-cococlip
存储库地址: https://huggingface.co/datasets/clane9/nsd-flat-cococlip
下载大小: 935,613,340 字节
数据集大小: 937,201,277 字节

数据结构

特征字段

subject_id: 数据类型为 int64，表示受试者ID。
trial_id: 数据类型为 int64，表示试验ID。
session_id: 数据类型为 int64，表示会话ID。
nsd_id: 数据类型为 int64，表示NSD ID。
activity: 数据类型为 image，表示活动图像。
target: 数据类型为 float64，表示目标值。

数据划分

训练集 (train)
- 样本数量: 32,539
- 数据大小: 556,308,671 字节
验证集 (validation)
- 样本数量: 5,418
- 数据大小: 92,383,606 字节
测试集 (test)
- 样本数量: 5,390
- 数据大小: 90,787,804 字节
测试ID集 (testid)
- 样本数量: 5,187
- 数据大小: 88,558,525 字节
共享1000集 (shared1000)
- 样本数量: 6,404
- 数据大小: 109,162,671 字节

配置信息

配置名称: default
数据文件路径:
- 训练集: data/train-*
- 验证集: data/validation-*
- 测试集: data/test-*
- 测试ID集: data/testid-*
- 共享1000集: data/shared1000-*

搜集汇总

数据集介绍

构建方式

在神经影像与计算视觉交叉领域，nsd-flat-cococlip数据集通过整合自然场景数据集（NSD）与COCO-Clip视觉特征构建而成。该数据集以八名受试者在功能性磁共振成像（fMRI）实验中观看数万张自然图像时的脑活动记录为基础，将高维神经响应数据与经过预训练的Clip模型提取的图像语义特征对齐，形成结构化的脑活动-视觉表征配对。数据经过严格预处理，包括神经信号的去噪与归一化，并按实验试次、会话及受试者进行系统标注，确保了神经数据与视觉刺激之间的精确映射。

使用方法

使用该数据集时，研究者可依据标准机器学习流程，将训练集用于构建脑活动到视觉特征的映射模型，验证集用于超参数调优，测试集则评估模型泛化性能。对于神经解码任务，可通过输入脑活动数据预测对应的Clip特征或图像类别；在编码模型中，则可从视觉刺激反推神经响应模式。数据以分片文件形式存储，支持流式加载，用户需注意按受试者与会话划分数据以避免信息泄漏，并利用shared1000子集进行跨被试一致性验证。

背景与挑战

背景概述

神经影像与计算视觉的交叉领域长期致力于探索人类视觉系统与人工智能模型之间的关联，nsd-flat-cococlip数据集应运而生，旨在为这一前沿研究提供关键资源。该数据集由美国明尼苏达大学等机构的研究团队于2020年代初期构建，核心研究问题聚焦于通过功能性磁共振成像（fMRI）记录的大脑活动数据，与经过CLIP模型处理的视觉刺激表征进行对齐分析。其设计目标在于揭示人类神经表征与深度学习视觉编码之间的对应关系，为神经科学启发的人工智能模型优化及脑机接口技术的发展奠定了实证基础，显著推动了跨学科研究的深度融合。

当前挑战

该数据集所针对的领域问题在于建立大脑神经活动与机器视觉表征之间的映射，这一任务面临多重挑战：神经信号的噪声干扰与个体差异性使得模型泛化困难，而高维稀疏的fMRI数据与密集的视觉特征之间的对齐需要复杂的跨模态学习框架。在构建过程中，研究人员需克服大规模fMRI数据采集的耗时性与高成本约束，同时确保视觉刺激的多样性与生态效度；数据预处理环节涉及复杂的时空对齐与降维操作，以平衡信息保留与计算可行性，这些因素共同构成了数据集构建与应用中的核心难点。

常用场景

经典使用场景

在认知神经科学领域，nsd-flat-cococlip数据集为研究视觉感知与大脑活动之间的映射关系提供了关键资源。该数据集整合了功能性磁共振成像（fMRI）记录的大脑活动信号与对应的视觉刺激图像，经典使用场景涉及训练和验证脑解码模型，旨在从神经活动中重建或分类个体所观察的视觉内容。通过提供大规模、多试次的数据，它支持构建复杂的计算模型，以探索视觉信息在大脑皮层中的表征机制，成为连接神经科学与人工智能的桥梁。

解决学术问题

该数据集主要解决了视觉神经表征解码中的若干核心学术问题，包括如何从高维、噪声丰富的fMRI数据中提取稳定的视觉特征，以及大脑活动模式与语义信息之间的对应关系。其意义在于推动了脑机接口和神经编码理论的发展，通过提供标准化的实验数据，促进了跨实验室研究的可重复性与比较分析，为理解人类视觉系统的计算原理奠定了实证基础，对认知建模和神经工程学产生了深远影响。

实际应用

在实际应用层面，nsd-flat-cococlip数据集被广泛应用于脑机接口系统的开发与优化，例如辅助通信设备或视觉假体，帮助残障人士通过神经信号控制外部设备。同时，它在医疗诊断中辅助研究视觉障碍或神经退行性疾病，通过分析大脑活动模式来评估视觉处理功能的异常。此外，该数据集也为娱乐和教育领域的沉浸式技术提供了神经反馈依据，推动个性化交互体验的创新。

数据集最近研究