EEG-ImageNet

Name: EEG-ImageNet
Creator: 清华大学计算机科学与技术系
Published: 2024-06-11 18:52:17
License: 暂无描述

arXiv2024-06-11 更新2024-06-21 收录

下载链接：

https://github.com/Promise-Z5Q2SQ/EEG-ImageNet-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

EEG-ImageNet是由清华大学计算机科学与技术系创建的EEG数据集，旨在促进视觉神经科学和生物医学工程的研究。该数据集包含16名受试者在观看4000张ImageNet图像时的EEG记录，这些图像分为80个类别，支持多粒度分析。数据集的创建过程严格遵循伦理和隐私保护标准，确保数据的质量和可靠性。EEG-ImageNet的应用领域包括视觉脑机接口、神经解码和机器视觉模型的改进，旨在解决EEG在视觉感知研究中的数据稀缺问题。

EEG-ImageNet is an EEG dataset developed by the Department of Computer Science and Technology, Tsinghua University, aiming to advance research in visual neuroscience and biomedical engineering. This dataset contains EEG recordings from 16 human subjects while they viewed 4000 ImageNet images, which are categorized into 80 classes to support multi-granularity analysis. The creation of this dataset strictly adheres to ethical and privacy protection standards, ensuring the quality and reliability of the data. Its application fields include visual brain-computer interfaces, neural decoding, and the improvement of machine vision models, and it is designed to address the data scarcity issue of EEG in visual perception research.

提供机构：

清华大学计算机科学与技术系

创建时间：

2024-06-11

搜集汇总

数据集介绍

构建方式

在视觉神经科学研究领域，脑电图（EEG）因其高时间分辨率、非侵入性和成本效益而备受关注，然而大规模、高质量EEG数据集的缺乏制约了相关探索。EEG-ImageNet数据集的构建旨在填补这一空白，其采集过程严格遵循实验心理学范式。研究团队招募了16名健康受试者，在实验室环境中通过快速序列视觉呈现（RSVP）范式向其展示从ImageNet-21k中精选的4000幅高质量自然图像，每幅图像呈现时长为500毫秒。实验采用62通道EEG设备以1000Hz采样率连续记录脑电信号，最终获得63,850对EEG-图像数据对。为确保数据质量，实验设置了随机测试环节以验证受试者注意力，未通过测试的类别数据将被排除。

特点

EEG-ImageNet数据集的核心特征体现在其规模与标注体系上。该数据集包含来自16名受试者的63,850对EEG-图像配对，其数据量达到现有同类基准数据集的五倍，为训练复杂深度学习模型提供了坚实基础。尤为突出的是其多粒度标签设计：80个图像类别被精心划分为40个粗粒度类别与40个细粒度类别，后者在WordNet层级结构中共享相同父节点，实现了从宏观类别到微观子类的语义覆盖。这种结构使得数据集能够支持从基础物体识别到精细视觉特征解码的多层次研究需求，为探索人类视觉系统如何处理不同抽象层级的信息提供了独特资源。

使用方法

为充分发挥EEG-ImageNet数据集的科研价值，研究者需遵循特定的数据处理与实验流程。原始EEG数据需经过包括重参考、0.5-80Hz带通滤波以及伪迹去除在内的标准预处理流程。在特征提取阶段，可根据模型需求选择时域信号或基于韦尔奇方法计算的频域微分熵特征。数据集明确建议采用受试者内实验设计，并将每个类别的前30幅图像作为训练集，后20幅作为测试集，以控制时间效应的影响。基于此，研究者可开展两大基准任务：一是基于EEG信号的80类物体分类，二是利用生成模型进行图像重建。相关代码与数据划分方案已在开源平台发布，确保了实验的可复现性。

背景与挑战

背景概述

在视觉神经科学领域，通过脑活动信号识别与重建视觉感知，为探索生物视觉系统的表征机制提供了独特视角。2024年，清华大学的研究团队发布了EEG-ImageNet数据集，旨在弥补脑电图技术在视觉研究中因缺乏大规模、高质量数据而受限的现状。该数据集采集了16名受试者在观看来自ImageNet的4000张图像时的脑电信号，构建了超过六万对脑电-图像配对，规模远超同类基准。其核心创新在于引入了多粒度标签体系，涵盖40个粗粒度与40个细粒度视觉类别，为基于脑电信号的物体分类与图像重建任务建立了系统化基准。这一资源的发布，显著推动了便携式脑机接口在视觉感知解码方面的应用潜力，并为理解人类视觉处理层级结构提供了关键数据支撑。

当前挑战

EEG-ImageNet致力于解决的核心领域挑战在于，如何利用便携、低成本的脑电图设备实现高效的视觉信息解码，以克服功能磁共振成像等技术在普及性上的局限。具体而言，该领域长期面临两大难题：一是缺乏具备足够规模与信号质量的脑电数据集，制约了深度学习模型的训练与泛化；二是现有数据多局限于粗粒度视觉分类，难以支撑对细微视觉差异的神经表征研究。在数据集构建过程中，研究者亦需应对诸多技术挑战：包括设计实验范式以最小化时序效应对信号的影响，确保在快速序列视觉呈现下仍能捕获稳定的类别相关神经响应；同时，需精心筛选与标注多粒度图像刺激，平衡类别多样性与实验可控性，并处理脑电信号固有的低信噪比问题以提升数据可用性。

常用场景

经典使用场景

在视觉神经科学领域，EEG-ImageNet数据集为基于脑电信号的视觉刺激解码研究提供了关键资源。该数据集最经典的应用场景在于训练和评估深度学习模型，以实现从高时间分辨率的脑电信号中解码被试者所观看的视觉图像内容。研究者利用其包含的63,850个脑电-图像对，构建了对象分类和图像重建两大基准任务，其中RGNN模型在80类对象分类中达到了40.50%的准确率，而基于稳定扩散模型的图像重建任务则在双向识别中取得了64.67%的成绩。这些基准为探索大脑视觉信息处理的神经机制提供了标准化实验平台。

实际应用

该数据集的实际应用价值主要体现在推动便携式脑机接口技术的发展。相较于功能磁共振成像和脑磁图，脑电设备具有成本低、便携性强和时间分辨率高的优势。基于EEG-ImageNet训练的模型，未来可应用于开发实时视觉解码系统，例如为运动功能障碍者提供通过视觉想象控制外部设备的新途径。此外，数据集支持的多粒度分类能力，为开发能够理解用户复杂视觉意图的自适应脑机交互系统奠定了技术基础，在辅助医疗和增强现实领域具有广阔前景。

衍生相关工作

EEG-ImageNet的发布催生了一系列围绕脑电视觉解码的衍生研究。在方法学层面，研究者基于该数据集优化了如EEGNet、RGNN等专为脑电设计的神经网络架构，并探索了将稳定扩散等生成模型与脑电特征结合的新范式。在应用层面，它启发了跨被试泛化模型的研究，以解决个体脑电差异大的挑战。数据集建立的标准实验流程和基准结果，也为后续研究提供了可靠的对比基线，推动了整个领域从传统机器学习方法向更复杂的端到端深度学习框架的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集