Cueless EEG Imagined Speech Dataset

Name: Cueless EEG Imagined Speech Dataset
Creator: 伊朗谢里夫理工大学计算机工程系
Published: 2025-01-17 01:54:56
License: 暂无描述

arXiv2025-01-17 更新2025-02-25 收录

下载链接：

https://huggingface.co/datasets/Alidr79/cueless_EEG_subject_identification

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由伊朗谢里夫理工大学的研究团队创建，旨在通过无外部提示的想象语音范式进行受试者识别。数据集包含11名受试者在五个会话中生成的超过4,350次试验，数据来源于受试者在无视觉或听觉提示的情况下自然想象发音的过程。数据采集过程中，受试者从预定义的五个波斯语单词中选择并想象其发音，实验通过EEG设备记录脑电信号。该数据集的应用领域包括脑机接口（BCI）和生物识别系统，旨在解决无提示想象语音在受试者识别中的有效性和可靠性问题。

This dataset was created by a research team from Sharif University of Technology in Iran, with the objective of conducting subject identification using the imagined speech paradigm without external prompts. It comprises over 4,350 trials from 11 subjects across five experimental sessions, with data sourced from scenarios where subjects naturally imagined articulating speech with no visual or auditory external prompts. During data collection, subjects selected and imagined the pronunciation of five predefined Persian words, and electroencephalogram (EEG) signals were recorded during the experiment. The applicable domains of this dataset include brain-computer interfaces (BCI) and biometric systems, and it is intended to address the effectiveness and reliability issues of unprompted imagined speech for subject identification.

提供机构：

伊朗谢里夫理工大学计算机工程系

创建时间：

2025-01-17

搜集汇总

数据集介绍

构建方式

本研究引入了一种无提示的脑电图（EEG）想象语音范式，并在此基础上构建了一个数据集。数据集包含来自11名受试者的超过4,350个试验，每个受试者在同一天内进行了五次试验。受试者在没有任何外部提示的情况下，从预定义的五个单词列表中选择并想象单词的发音。数据采集过程中，受试者坐在舒适的椅子上，通过PsychoPy®软件进行实验范式控制。数据采集使用的是Liv Intelligent Technology的主动式EEG设备，电极按照10-20系统排列。数据预处理包括数据结构化、文件整合、信号预处理（如陷波滤波、带通滤波、坏通道检测和插值、重参考）等步骤，以确保数据的质量和可分析性。

使用方法

使用Cueless EEG Imagined Speech Dataset进行受试者识别的研究，可以采用以下方法：1）特征提取：从预处理后的EEG信号中提取特征，可以使用统计特征、小波特征或深度学习模型（如MOMENT）提取的嵌入；2）分类：将提取的特征输入到分类器中，可以使用支持向量机（SVM）、XGBoost等传统的机器学习模型，也可以使用深度学习模型（如EEGNet、Shallow ConvNet、EEG Conformer）进行端到端的分类；3）评估：采用会话保持的留出验证策略进行模型评估，确保模型在不同时间段内的泛化能力。

背景与挑战

背景概述

在生物识别领域中，脑电图（EEG）信号作为一种新兴的生物识别模式，具有不易伪造、可在胁迫情况下检测和确保活体存在的独特优势。本研究引入了一种无需外部线索的EEG想象语音范式，并基于此范式创建了一个包含11名受试者跨越五次会话的4,350个试验数据集。该数据集旨在探索无需外部线索的想象语音范式在真实世界场景下的应用潜力，并为脑机接口（BCI）等领域的研究提供数据支持。

当前挑战

本研究面临的主要挑战包括：1）如何设计一种自然且无需外部线索的想象语音范式，使其更符合真实世界的场景；2）如何确保数据集的质量和可靠性，以便进行有效的模型训练和评估；3）如何选择合适的特征提取方法和分类器，以实现高精度的受试者识别。

常用场景

经典使用场景

在脑电图（EEG）信号分析领域，Cueless EEG Imagined Speech Dataset 数据集的经典使用场景集中在基于无提示想象语音的个体识别。该数据集允许研究人员探索个体在没有外部视觉或听觉提示的情况下，通过想象特定单词的发音来进行识别。这种无提示的想象语音范式更贴近现实世界场景，其中个体自然选择并想象单词，而不受外部线索的影响。研究者可以利用这一数据集，结合传统的机器学习技术（如支持向量机（SVM）和XGBoost）以及专门为EEG分类设计的深度学习架构（如EEG Conformer和Shallow ConvNet），评估和开发个体识别模型。

解决学术问题

Cueless EEG Imagined Speech Dataset 数据集解决了传统想象语音研究中依赖外部提示的问题。在以往的研究中，想象语音任务往往需要视觉或听觉提示，这可能会影响想象过程的自然性和真实性。该数据集通过引入无提示的想象语音范式，使得想象过程更加自然，从而更准确地反映个体的真实心理状态。此外，该数据集提供了多会话数据，有助于评估模型在不同时间点上的稳定性。这对于开发能够在实际应用中持续保持高识别准确率的个体识别系统至关重要。

实际应用

该数据集在实际应用场景中，如脑机接口（BCI）系统，具有广泛的应用潜力。例如，在安全认证领域，可以利用该数据集开发的模型进行无接触的个体识别，提高认证过程的安全性。此外，在医疗领域，该数据集可以帮助研究人员开发更准确的脑电图信号分析工具，用于诊断和治疗神经退行性疾病。在智能人机交互领域，该数据集可以用于开发更自然、更直观的交互方式，提高用户体验。

数据集最近研究