five

DavidVivancos/MindBigData2023_MNIST-8B

收藏
Hugging Face2024-01-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/DavidVivancos/MindBigData2023_MNIST-8B
下载链接
链接失效反馈
官方服务:
资源简介:
MindBigData 2023 MNIST-8B是迄今为止(截至2023年6月1日)最大的脑信号开放数据集,基于单个受试者的EEG信号创建,用于机器学习。该数据集复刻了Yaan LeCun等人的MNIST数据集中的70,000个数字。脑信号是在受试者观看屏幕上逐个像素显示的数字并同时听取真实标签的语音数字(0到9)时捕获的。数据集包含140,000条记录,每条记录来自128个EEG通道,记录时长为2秒,采样率为250Hz,总共包含17,920,000个脑信号和8,960,000,000个数据点。数据集包含两个主要的CSV文件(train.csv和test.csv),10个音频文件(0.wav到9.wav),以及一个包含EEG电极3D坐标的CSV文件(3Dcoords.csv)。此外,还提供了一个缩减版的2Billion数据点的数据集。

MindBigData 2023 MNIST-8B是迄今为止(截至2023年6月1日)最大的脑信号开放数据集,基于单个受试者的EEG信号创建,用于机器学习。该数据集复刻了Yaan LeCun等人的MNIST数据集中的70,000个数字。脑信号是在受试者观看屏幕上逐个像素显示的数字并同时听取真实标签的语音数字(0到9)时捕获的。数据集包含140,000条记录,每条记录来自128个EEG通道,记录时长为2秒,采样率为250Hz,总共包含17,920,000个脑信号和8,960,000,000个数据点。数据集包含两个主要的CSV文件(train.csv和test.csv),10个音频文件(0.wav到9.wav),以及一个包含EEG电极3D坐标的CSV文件(3Dcoords.csv)。此外,还提供了一个缩减版的2Billion数据点的数据集。
提供机构:
DavidVivancos
原始信息汇总

数据集概述

MindBigData 2023 MNIST-8B 是截至2023年6月1日为止最大的脑信号公开数据集,专为机器学习创建。该数据集基于单个受试者的EEG信号,使用定制的128通道设备捕获,复现了Yann LeCun等人的MNIST数据集中的全部70,000个数字。在受试者观看原始数字像素的同时,通过屏幕显示,并听取从0到9的真实标签语音。

数据集内容

  • 数据量:包含140,000条记录,来自128个EEG通道,每条记录2秒,采样率为250Hz,总计17,920,000个脑信号和8,960,000,000个数据点。
  • 文件组成
    • “train.csv”:45GB,包含头部信息和120,000行,64,791列。
    • “test.csv”:7.52GB,包含头部信息和20,000行,64,791列。
    • 音频文件:位于“audiolabels”文件夹中,包含10个.wav文件,分别对应0至9的语音标签。
    • “3Dcoords.csv”:4.27KB,包含头部信息和130行,4列,记录了EEG电极的三维坐标。

数据集更新

2023年7月18日,应请求发布了20亿数据点的简化版本,地址为:MindBigData2023_MNIST-2B

引用信息

sh @article{MindBigData_2023_MNIST-8B, title={MindBigData 2023 MNIST-8B The 8 billion datapoints Multimodal Dataset of Brain Signals}, author={David Vivancos}, journal={arXiv preprint arXiv:2306.00455}, year={2023} }

搜集汇总
数据集介绍
main_image_url
构建方式
在神经科学与机器学习交叉领域,MindBigData2023 MNIST-8B数据集的构建体现了严谨的实验设计。该数据集基于单被试的脑电图信号,采用定制化128通道设备采集,采样频率为250赫兹。实验过程中,被试同步观看原始MNIST数据集中的数字像素序列,并聆听对应数字的语音标签,从而复现了全部70,000个手写数字样本。最终形成了包含140,000条记录、总计89.6亿数据点的庞大集合,为多模态脑机接口研究提供了坚实基础。
使用方法
该数据集适用于脑信号解码、多模态融合等前沿研究方向。使用者可通过加载CSV文件直接获取时序脑电信号,结合提供的音频标签文件构建视听-神经关联模型。数据已预分为120,000条训练样本与20,000条测试样本,支持端到端的分类任务验证。研究人员可依据电极坐标文件进行空间拓扑分析,或利用降采样版本开展快速原型实验。引用时需遵循相关学术规范,确保研究成果的可复现性与学术诚信。
背景与挑战
背景概述
在神经科学与机器学习交叉领域,脑电信号(EEG)数据集对于解码认知过程至关重要。MindBigData 2023 MNIST-8B 数据集由 David Vivancos 于 2023 年创建,旨在构建迄今规模最大的公开脑电信号数据集,其核心研究问题在于探索多模态刺激(视觉与听觉)下大脑对数字识别的神经表征。该数据集基于经典 MNIST 手写数字集,通过单被试 128 通道 EEG 设备采集,记录了观看像素序列并同步听取语音标签时的脑活动,为脑机接口与神经解码研究提供了前所未有的高维度数据资源,显著推动了神经信息学与人工智能的融合进程。
当前挑战
该数据集致力于解决脑电信号分类中的高噪声、低信噪比以及跨模态整合难题,其挑战在于从复杂神经活动中精准提取与特定认知任务相关的特征。在构建过程中,面临大规模数据采集的技术瓶颈,包括设备同步精度、长时间记录的数据稳定性以及海量数据的存储与处理需求;同时,确保单被试数据在多样刺激下的代表性与泛化能力,亦是数据集构建的核心难点。
常用场景
经典使用场景
在脑机接口与神经科学领域,MindBigData2023_MNIST-8B数据集为研究视觉与听觉刺激下脑电信号的编码机制提供了关键资源。该数据集通过记录受试者在观看MNIST手写数字像素并同步听取对应语音标签时的128通道脑电图,构建了大规模多模态神经信号基准。其经典应用场景集中于开发深度学习模型,以探索大脑如何处理数字信息,并推动基于脑电信号的模式识别与分类任务,为神经解码算法的训练与验证奠定了数据基础。
解决学术问题
该数据集有效应对了神经科学中脑信号解码的若干核心挑战,特别是解决了大规模、高维度脑电图数据稀缺的瓶颈问题。通过提供涵盖70,000个数字样本的同步视觉与听觉刺激的脑电记录,它支持研究者深入探究多感官整合下的神经表征机制,并为脑机接口中的意图识别、神经反馈等研究提供了实证数据。其意义在于促进了跨学科方法在神经信息处理中的应用,加速了脑信号解码模型从理论到实践的转化。
实际应用
在实际应用中,MindBigData2023_MNIST-8B数据集为脑机接口技术的开发与优化提供了重要支撑。基于该数据集训练的模型可应用于医疗康复领域,如帮助运动功能障碍患者通过脑电信号控制外部设备;在神经工程中,它助力设计更高效的脑信号分类系统,提升人机交互的自然性与准确性。此外,该数据集还可用于教育或认知训练工具的开发,通过实时神经反馈增强学习效果。
数据集最近研究
最新研究方向
在脑机接口与神经科学领域,MindBigData2023 MNIST-8B数据集以其前所未有的规模与多模态特性,正推动前沿研究向高维脑电信号解码与跨模态学习深入拓展。该数据集将经典MNIST数字视觉刺激与同步听觉标签结合,通过128通道脑电记录构建了庞大的神经响应映射,为探索大脑如何处理复杂感知任务提供了关键实证基础。当前研究热点集中于利用深度学习模型,如卷积神经网络与Transformer架构,实现从原始脑电信号中直接识别视觉刺激类别,并进一步探究视听融合机制下的神经表征泛化能力。这一进展不仅加速了非侵入式脑机接口在医疗康复与智能交互中的应用,也为理解人类认知的神经编码原理开辟了新路径,具有重要的科学与工程意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作