Alljoined-1.6M

Name: Alljoined-1.6M
Creator: Alljoined
Published: 2025-08-27 09:31:35
License: 暂无描述

arXiv2025-08-27 更新2025-08-29 收录

下载链接：

https://huggingface.co/datasets/Alljoined/Alljoined-1.6M https://github.com/Alljoined/Alljoined-1.6M

下载链接

链接失效反馈

官方服务：

资源简介：

Alljoined-1.6M 是一个大规模的脑电图（EEG）数据集，包含超过160万个视觉刺激试验，由20名参与者在四次会议上收集，总共包含16,740个独特的图像。数据集使用32通道的消费级湿电极系统收集，成本约为2200美元，比传统研究级EEG系统便宜约27倍。该数据集旨在评估低成本的脑机接口（BCI）的有效性，并探索深度神经网络是否可以在这些系统上有效地进行解码。数据集可用于语义解码、图像检索和EEG到图像重建等下游任务的研究，有助于降低BCI研究的成本和门槛，推动低成本EEG硬件在现实世界中的应用。

Alljoined-1.6M is a large-scale electroencephalogram (EEG) dataset containing over 1.6 million visual stimulus trials, collected from 20 participants across four experimental sessions, and encompassing a total of 16,740 unique images. The data was collected using a 32-channel consumer-grade wet-electrode system, which costs approximately $2,200, making it about 27 times cheaper than conventional research-grade EEG systems. This dataset is designed to evaluate the effectiveness of low-cost brain-computer interfaces (BCIs) and explore whether deep neural networks can perform effective decoding on such systems. It can be utilized for research on downstream tasks including semantic decoding, image retrieval, and EEG-to-image reconstruction, helping to lower the cost and barriers of BCI research and advance the real-world deployment of low-cost EEG hardware.

提供机构：

Alljoined

创建时间：

2025-08-26

搜集汇总

数据集介绍

构建方式

在脑机接口研究领域，数据采集的成本与质量平衡一直是核心挑战。Alljoined-1.6M数据集采用Emotiv Flex 2型32通道湿电极系统进行构建，该系统成本仅为2200美元，显著降低了传统研究级脑电设备的资金门槛。数据采集过程中，20名健康受试者在隔音暗室中通过快速序列视觉呈现范式观看16,740张独特图像，每张图像呈现100毫秒后跟随100毫秒空白屏。实验设计包含正交目标检测任务以确保参与者注意力集中，最终获得超过160万次 trials 的脑电记录，所有数据均经过MNE-Python预处理并进行多变量噪声归一化以提升信噪比。

特点

作为当前规模最大的公开脑电图像数据集，Alljoined-1.6M的核心特征体现在其硬件亲民性与数据丰富性的结合。数据集通过消费级设备采集，虽信噪比较研究级系统偏低，但凭借超过160万 trials 的规模优势，仍能有效支持高级语义解码任务。其刺激材料源自THINGS数据库，涵盖7个语义元类别（如动物、交通工具、工具等），且训练集与测试集在图像类别上完全无重叠，有效避免了模型过拟合。数据格式与THINGS-EEG2基准保持一致，包括250Hz重采样后的时序信号和事件相关电位片段，为跨数据集对比研究提供便利。

使用方法

该数据集主要服务于脑电信号解码与图像重建算法的开发与验证。研究者可利用其大规模 trials 训练深度学习模型，进行语义分类、图像检索或脑电到图像的生成任务。数据集已提供基于ENIGMA、ATM-S等模型的基准性能指标，支持端到端模型训练与跨硬件性能对比分析。使用时需注意其信噪比特性，建议采用时序建模技术或跨试次平均策略以优化解码效果。数据集可通过Hugging Face平台获取，配套代码库提供了完整的数据加载、预处理及模型评估流程，便于快速开展可复现研究。

背景与挑战

背景概述

脑机接口研究长期受限于高成本科研级脑电设备的可及性问题，Alljoined-1.6M数据集于2025年由Alljoined机构联合多所高校团队发布，旨在探索消费级脑电设备在语义解码任务中的可行性。该数据集包含20名参与者观看16,740张图像时采集的160万次32通道脑电 trials，采用成本仅2200美元的Emotiv Flex 2设备，相较6万美元的科研设备降低了27倍成本。作为THINGS倡议的重要组成部分，该数据集推动了脑机接口研究从实验室场景向现实应用场景的范式转移。

当前挑战

该数据集致力于解决消费级脑电设备在视觉语义解码任务中的信噪比瓶颈问题，其核心挑战在于如何从低信噪比信号中提取有效的语义特征。构建过程中面临三重技术挑战：消费级设备固有的信号质量限制导致传统解码方法性能衰减；大规模数据采集时需克服设备同步精度与参与者状态监控的工程难题；此外需建立适用于低质量信号的新型评估基准，以验证神经网络模型在成本-性能权衡下的有效性。

常用场景

经典使用场景

在脑机接口与视觉认知研究领域，Alljoined-1.6M数据集被广泛用于评估消费级脑电设备在语义解码任务中的性能。该数据集通过快速序列视觉呈现范式记录了20名参与者对16,740张图像的电生理响应，为研究视觉感知的神经机制提供了大规模数据基础。其经典应用包括训练线性判别分析模型进行时间分辨的类别解码，验证了即使在信噪比较低的条件下仍能实现显著的语义信息分离。

解决学术问题

该数据集解决了消费级脑电设备能否支撑高水平神经解码研究的核心学术问题。通过证明基于Emotiv Flex 2系统的数据仍可实现图像检索、语义分类及脑电到图像重建等任务，填补了低成本硬件与高精度解码需求之间的研究空白。其意义在于突破了传统脑电研究对昂贵设备的依赖，为大规模神经数据采集和深度学习模型训练提供了实证基础，推动了脑机接口技术的民主化发展。

衍生相关工作

该数据集催生了多项神经解码领域的创新研究，例如基于ENIGMA、ATM-S和Perceptogram等模型的脑电到图像重建工作。这些研究通过对比消费级与科研级设备的性能差异，优化了针对低信噪比数据的算法架构。此外，数据集的元类别标注体系启发了跨模态语义对齐研究，推动了CLIP等视觉-语言模型在神经科学中的应用，为多模态脑机接口开发提供了新范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集