Alljoined-1.6M

Name: Alljoined-1.6M
Creator: Alljoined, University of Waterloo, Sophont, Princeton Neuroscience Institute, University of California San Diego
Published: 2025-08-26 08:07:56
License: 暂无描述

arXiv2025-08-26 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/Alljoined/Alljoined-1.6M, https://github.com/Alljoined/Alljoined-1.6M

下载链接

链接失效反馈

官方服务：

资源简介：

Alljoined-1.6M 数据集是 THINGS 计划的一部分，包含超过 160 万个视觉刺激试验，由 20 名参与者收集，数据量是目前最流行的基准数据集 THINGS-EEG2 的两倍多。该数据集使用 32 通道的消费级湿电极系统记录，成本约为 2200 美元，比认知神经科学实验室通常使用的科研级 EEG 系统便宜约 27 倍。该数据集旨在探索深度神经网络 BCI 研究和语义解码方法是否可以有效地使用这种负担得起的系统进行，填补了当前文献中的一个重要空白。数据集内容包含 16740 张独特图像，所有数据均在可负担的 EEG 硬件上收集。数据集创建过程包括使用 Emotiv Flex 2 EEG 系统进行数据收集，以及使用 MNE-Python 进行预处理。该数据集的应用领域是脑机接口 (BCI)，旨在解决数据质量与可访问性之间的权衡问题。

Alljoined-1.6M Dataset is part of the THINGS initiative, housing over 1.6 million visual stimulus trials collected from 20 participants, with a scale more than double that of the currently dominant benchmark dataset THINGS-EEG2. Recorded using a 32-channel consumer-grade wet-electrode system priced at approximately $2,200, this dataset is roughly 27 times cheaper than the research-grade EEG systems commonly used in cognitive neuroscience laboratories. This dataset aims to investigate whether deep neural network-based BCI research and semantic decoding approaches can be effectively implemented with such affordable systems, thereby filling a critical gap in the existing literature. The dataset comprises 16,740 unique images, with all data acquired on affordable EEG hardware. The dataset creation workflow includes data collection via the Emotiv Flex 2 EEG system and preprocessing using MNE-Python. Its application domain focuses on brain-computer interface (BCI) research, targeting the resolution of the trade-off between data quality and accessibility.

提供机构：

Alljoined, University of Waterloo, Sophont, Princeton Neuroscience Institute, University of California San Diego

创建时间：

2025-08-26

搜集汇总

数据集介绍

构建方式

在脑机接口研究领域，数据采集的成本与质量始终存在权衡。Alljoined-1.6M数据集采用消费级32通道Emotiv Flex 2脑电设备，以约2200美元的成本实现了全头皮覆盖和256Hz采样率。通过快速序列视觉呈现范式，20名受试者在4次独立会话中观看16,740张独特图像，累计完成160万次试验。数据采集过程严格遵循双盲设计，训练集与测试集的图像类别完全无重叠，并通过多变量噪声归一化预处理提升信噪比。

特点

作为当前最大的公开脑电视觉认知数据集，Alljoined-1.6M的核心特征体现在其消费级硬件兼容性与规模优势。数据集包含超过160万次试验，规模达同类研究数据集THINGS-EEG2的两倍以上，且所有数据均通过低成本设备采集。尽管信噪比较研究级系统低，但数据仍展现出清晰的事件相关电位响应和语义类别可分性。数据集提供七种语义元类别标注，支持从粗粒度到细粒度的多层次分析，并为EEG-图像重建任务提供基准评估框架。

使用方法

该数据集适用于脑电信号解码与跨模态建模研究。研究者可基于训练集开发语义分类、图像检索或EEG-图像重建模型，并在完全独立的测试集上验证泛化性能。数据集支持传统事件相关电位分析与现代深度学习方法的结合，尤其适合探索消费级硬件条件下的解码算法优化。通过提供的元类别标签，可进行跨类别泛化实验。所有数据均以标准EDF格式存储，并与MNE-Python工具链兼容，支持端到端的预处理流水线构建。

背景与挑战

背景概述

脑机接口研究长期受限于高成本科研级脑电设备的可及性问题，Alljoined-1.6M数据集于2025年由Alljoined机构联合多所高校团队发布，旨在探索消费级脑电设备在视觉语义解码任务中的可行性。该数据集包含20名参与者观看16,740张图像时采集的160万次32通道脑电 trials，采用成本仅2200美元的Emotiv Flex 2系统采集，规模达到同类最大数据集THINGS-EEG2的两倍以上。其创新性在于首次以大规模开源形式验证了低成本硬件在高级认知任务解码中的潜力，为脑机接口技术的普惠化发展提供了关键数据支撑。

当前挑战

该数据集核心挑战在于解决消费级脑电设备信号质量与解码性能的平衡问题：一方面需应对低信噪比环境下语义特征提取的困难，包括早期视觉成分P1/N1的弱化及高频噪声干扰；另一方面需克服硬件限制带来的空间分辨率不足（32通道相较于科研级64通道）。构建过程中面临电极信号稳定性控制、多会话数据对齐、以及被试注意力维持等工程挑战，同时需确保在快速序列视觉呈现范式下触发信号的毫秒级精度同步。

常用场景

经典使用场景

在脑机接口研究领域，Alljoined-1.6M数据集为评估消费级脑电设备的语义解码能力提供了重要基准。该数据集通过快速序列视觉呈现范式记录受试者对16,740张自然图像的脑电响应，支持深度学习模型进行图像分类、语义特征提取和跨模态解码任务。其大规模样本量和标准化预处理流程使其成为验证轻量级线性判别分析与复杂神经网络模型性能的理想平台，尤其在低信噪比环境下展现出色稳定性。

实际应用

在医疗康复与人机交互领域，该数据集支持开发基于消费级脑电设备的实时视觉辅助系统。例如，通过解码用户观看图像时的脑电模式，系统可实现意念驱动的图像检索或环境交互，为行动障碍患者提供新型沟通工具。在教育场景中，其低成本特性使得课堂神经科学实验成为可能，学生可通过便携设备记录并分析自身脑电信号，直观理解视觉认知的神经机制。

衍生相关工作

该数据集催生了多个神经解码模型的优化与创新，例如ENIGMA多被试模型在低信噪比数据上的适配研究，以及ATM-S架构针对消费级硬件的轻量化改进。基于其元类别标注体系，研究者开发了新型语义解码管道，如结合CLIP嵌入的跨模态对齐方法。此外，该数据集的发布推动了EEG-to-Image重建任务的基准标准化，激发了针对低成本设备的噪声鲁棒性算法研究，如时序特征增强与空间自适应滤波技术。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集