MindBigData
收藏arXiv2022-12-28 更新2024-06-21 收录
下载链接:
http://mindbigdata.com/opendb/index.html
下载链接
链接失效反馈官方服务:
资源简介:
MindBigData是一个大规模的脑信号数据集,由MindBigData机构创建,旨在通过机器学习算法解码人类活动相关的脑信号。数据集包含三个主要数据库:‘脑数字的MNIST’、‘脑图像的ImageNet’和‘视觉脑数字的MNIST’,分别对应不同的脑信号采集场景。创建过程中使用了多种商业和自制的EEG设备,以探索技术的极限。该数据集广泛应用于脑机接口领域,旨在通过直接的脑信号交互,改善人类与技术的互动方式,从打字、触摸、说话到思考的转变。
MindBigData is a large-scale brain signal dataset developed by the MindBigData institution, designed to decode human activity-related brain signals via machine learning algorithms. The dataset encompasses three core databases: 'Brain Digital MNIST', 'Brain ImageNet', and 'Visual Brain Digital MNIST', which correspond to distinct brain signal acquisition scenarios. Multiple commercial and custom-built EEG devices were utilized during its construction to explore the limits of related technologies. This dataset is widely adopted in the brain-computer interface (BCI) field, with the goal of enhancing human-technology interaction through direct brain signal communication, spanning the transition from typing, touching, speaking to thinking.
提供机构:
MindBigData
创建时间:
2022-12-28
搜集汇总
数据集介绍

构建方式
在脑机接口研究领域,获取大规模、高质量的脑电信号数据是推动算法发展的关键。MindBigData数据集采用系统化的实验范式构建,通过让单一被试者在受控环境中观看视觉刺激(如MNIST数字或ImageNet图像)来诱发特定脑电活动。数据采集跨越近十年,使用多种商用及定制脑电设备,包括NeuroSky MindWave、Interaxon Muse系列、Emotiv系列以及自研的64通道脑电帽,以覆盖不同空间分辨率与信号特性。原始信号以文本格式存储,包含通道信息、时间戳、事件标签及原始电压序列,确保了数据的可追溯性与可复现性。
特点
该数据集的核心特点在于其规模与多样性,共包含约150万条脑电信号,涵盖“脑电数字MNIST”、“脑电ImageNet”及“视觉MNIST脑电数字”三大子集。信号采集设备通道数从1至64不等,采样率介于128Hz至512Hz,提供了从低密度到高密度的空间覆盖。数据不仅包含原始脑电波形,还衍生出时频分析结果(如频谱图、Morlet小波变换图像),并整合了PPG、加速度计、陀螺仪等多模态传感器数据,为跨模态分析提供了丰富素材。数据集已划分为80%训练集与20%测试集,便于标准化模型评估。
使用方法
研究者可通过公开数据仓库获取MindBigData,原始数据以TAB或逗号分隔的文本文件形式提供,结构清晰且附有详细元数据说明。使用前需进行常规脑电信号预处理,如滤波、重采样及伪迹去除,以提升信号质量。该数据集适用于监督学习任务,如基于脑电信号的数字或图像分类、跨模态生成模型训练,以及脑机接口解码算法基准测试。在Hugging Face平台提供的整理版本中包含加载代码,支持快速集成至机器学习流程。此外,数据集的多样设备与多模态特性使其成为研究信号鲁棒性、跨设备泛化及融合学习的理想资源。
背景与挑战
背景概述
脑电信号解码作为脑机接口领域的核心挑战,其进展长期受限于高质量标注数据的稀缺。MindBigData数据集由David Vivancos与Félix Cuesta等人自2014年起持续构建,旨在建立大规模、标准化的脑电信号本体库,为机器学习算法提供解码大脑活动的基准测试平台。该数据集通过商用及定制化脑电设备,系统采集了视觉刺激任务下的脑电响应,涵盖数字识别与图像感知等多类认知任务,其结构化设计直接对标计算机视觉领域的MNIST与ImageNet数据集,为神经科学与人工智能的交叉研究提供了关键数据基础。
当前挑战
该数据集致力于解决非侵入式脑电信号解码的核心难题,即如何从高噪声、低信噪比的原始脑电波中稳定提取与特定认知任务相关的神经表征。构建过程中面临多重挑战:不同脑电设备通道数与采样率的异构性导致数据标准化困难;肌肉运动、眨眼等生理伪影对信号纯净度造成持续干扰;单被试设计虽能控制个体变异,但限制了模型在不同人群中的泛化能力;长期采集过程中设备性能衰减与受试者状态变化可能引入难以量化的系统性偏差。
常用场景
经典使用场景
在脑机接口与认知神经科学领域,MindBigData数据集为视觉诱发脑电信号的解码研究提供了标准化基准。该数据集通过记录受试者在观看数字或图像时产生的脑电活动,构建了大规模的脑信号与视觉刺激之间的映射关系。研究人员利用其丰富的多设备、多通道脑电数据,能够系统评估不同机器学习模型在脑信号分类任务上的性能,从而推动脑电信号解码算法的创新与优化。
解决学术问题
MindBigData有效应对了脑电研究领域长期面临的数据稀缺与标准化不足的挑战。该数据集通过提供大规模、高质量且标注清晰的脑电信号,为探索脑信号解码的通用编码器、跨设备泛化能力以及信号噪声鲁棒性等核心问题奠定了数据基础。其意义在于建立了脑电信号与视觉认知任务之间的可重复实验框架,显著降低了脑机接口算法研究的入门门槛,并促进了机器学习与神经科学的跨学科融合。
衍生相关工作
MindBigData自发布以来,已催生了一系列重要的衍生研究。众多学术工作以其为基础,探索了基于卷积神经网络的视觉诱发脑电分类、用于跨任务学习的通用脑电编码器、结合小波变换与遗传编程的脑电特征优化,以及面向边缘设备的轻量化脑电分析模型。这些研究不仅验证了数据集的实用性与挑战性,也进一步拓展了其在情感识别、阿尔茨海默症辅助诊断、联邦学习等新兴方向的应用边界,形成了持续活跃的研究生态。
以上内容由遇见数据集搜集并总结生成



