eit-1m/EIT-1M|脑电图数据集|多模态学习数据集

hugging_face2024-06-06 更新2024-06-12 收录

脑电图

多模态学习

下载链接：

https://hf-mirror.com/datasets/eit-1m/EIT-1M

下载链接

链接失效反馈

资源简介：

EIT-1M是一个包含超过100万对EEG-图像-文本对的大规模多模态数据集，旨在反映大脑在处理多模态信息时的活动。数据集通过收集参与者在观看视觉-文本刺激序列时的数据对，包括60K自然图像和类别特定文本，以及常见的语义类别，以确保数据的多样性和质量。数据集的有效性通过两个任务进行了验证：1) 从视觉或文本刺激或两者中进行EEG识别，2) EEG到视觉的生成。数据集的部分内容和代码已发布用于匿名评审。

提供机构：

eit-1m

原始信息汇总

EIT-1M 数据集概述

数据集名称

名称: EIT-1M
全称: One Million EEG-Image-Text Pairs for Human Visual-Textural Recognition and More

数据集内容

类型: 多模态数据集，包含超过100万对EEG-图像-文本数据。
数据收集方式: 参与者观看交替的视觉-文本刺激序列，这些序列来自60,000张自然图像和类别特定的文本。
数据特点:
- 包含常见的语义类别，以引发参与者大脑的更好反应。
- 包含基于反应的刺激时间和重复，跨块和会话，以确保数据多样性。

数据集用途

验证任务:
1. EEG识别来自视觉或文本刺激或两者。
2. EEG到视觉生成。

数据集状态

当前状态: 部分数据集和代码已发布于https://eit-1m.github.io/EIT-1M/，仅供匿名审查使用。

许可证

许可证: MIT

AI搜集汇总

数据集介绍

构建方式

EIT-1M数据集的构建，是基于对参与者观看60K自然图像与特定类别文本交替序列时记录的脑电波（EEG）信号。通过精心设计的视觉-文本刺激，以及确保数据多样性的响应基础刺激定时和跨块、会话的重复，形成了超过一百万的EEG-图像-文本对，旨在反映大脑在同时处理多模态信息时的活动。

特点

该数据集以其大规模的多模态特性而显著，不仅包含丰富的EEG信号，还涵盖了自然图像与类别特定文本的结合，能更好地激发大脑反应。EIT-1M在保证数据质量和忠实度方面具有优势，为研究大脑处理和整合多模态信息提供了珍贵的洞见。

使用方法

使用EIT-1M数据集，研究者可以开展脑电波识别任务，识别源自视觉或文本刺激的EEG信号，或是同时识别两者的EEG信号。此外，该数据集也可用于EEG至视觉生成的任务。数据集的部分内容和代码已公开，供匿名审查，全部数据将在接受后公开可用。

背景与挑战

背景概述

在多模态人工智能研究领域，电生理信号与视觉或文本刺激的结合，为解码大脑活动提供了新的途径。EIT-1M数据集，创建于近年来，由多个研究机构和专业人士共同构建。该数据集的核心在于探索大脑如何处理和整合多模态信息，包含了超过一百万个EEG-图像-文本配对，旨在为人类视觉-触觉识别提供深入的研究资源。EIT-1M数据集的问世，不仅丰富了多模态信息处理领域的研究数据，也为相关领域的研究提供了新的视角和方法，显示了其在该领域的重要影响力。

当前挑战

尽管EIT-1M数据集在多模态信息处理方面具有显著优势，但在构建过程中也面临诸多挑战。首先，数据集需要解决的是如何精确捕捉大脑在处理视觉或文本刺激时的EEG信号，这要求在数据采集过程中确保刺激的多样性和反应的精确性。其次，构建包含一百万个EEG-图像-文本配对的数据库，在数据收集、清洗和同步方面提出了极高的要求。此外，数据集在确保能够有效支持EEG识别和EEG至视觉生成任务的同时，还需保证数据的质量和透明度，这对于数据集的构建和后续研究构成了额外的挑战。

常用场景

经典使用场景

在探索人类视觉与文本识别的神经机制领域，EIT-1M数据集以其庞大的 EEG-图像-文本对资源，成为研究多模态信息处理的经典工具。该数据集通过记录受试者在观看交替的视觉和文本刺激时的脑电波活动，为研究人员提供了一种深入理解大脑如何同时处理和整合多模态信息的手段。

实际应用

在神经科学和认知科学领域，EIT-1M 数据集的实际应用场景包括但不限于脑机接口的开发、多模态信息处理的认知机制研究，以及针对不同人群的个性化教育方案设计。此外，它也为心理学和医学领域提供了重要的数据资源，以帮助理解和治疗相关脑功能障碍。

衍生相关工作

基于 EIT-1M 数据集，已衍生出一系列相关工作，包括多模态脑信号解码算法的研发、脑活动模式与刺激内容之间关系的分析，以及针对特定认知任务的大脑活动预测模型。这些研究进一步推动了 EEG 信号处理技术的发展，并拓宽了多模态信息处理在理论和应用层面的研究视野。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集，旨在通过大规模多语言数据集训练，实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率，并结合预训练的大型语言模型作为骨干，支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域，旨在解决高延迟和低自然度的问题，提供接近人类水平的语音合成质量。

arXiv 收录

MedDialog

MedDialog数据集（中文）包含了医生和患者之间的对话（中文）。它有110万个对话和400万个话语。数据还在不断增长，会有更多的对话加入。原始对话来自好大夫网。

github 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录