EEG recordings dataset

github2023-11-30 更新2024-05-31 收录

下载链接：

https://github.com/saleemhamo/eeg-data-feature-engineering

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含18名脊髓损伤患者的脑电图记录，用于预测中枢性神经痛。其中8名患者未发展为中枢性神经痛，10名患者在6个月内发展为中枢性神经痛。数据包括48个电极的EEG记录，采样率为250Hz，记录了闭眼和睁眼状态下的5秒长度片段，每个参与者重复10次。

This dataset comprises electroencephalogram (EEG) recordings from 18 patients with spinal cord injuries, aimed at predicting central neuropathic pain. Among these, 8 patients did not develop central neuropathic pain, while 10 patients developed the condition within six months. The data includes EEG recordings from 48 electrodes, sampled at a rate of 250Hz, capturing 5-second segments during both eyes-closed and eyes-open states, with each segment repeated 10 times per participant.

创建时间：

2023-11-16

原始信息汇总

数据集概述

数据集描述

参与者: 18名脊髓损伤（SCI）患者
- 8名negative（未发展CNP）
- 10名positive（6个月内发展CNP）
EEG数据:
- 48电极EEG记录，频率250 Hz
- 记录状态包括闭眼（EC）和睁眼（EO）
- 5秒长度片段，每位参与者重复10次
- 预处理包括信号降噪、归一化、时间分割和频带功率估计
- 180个标记数据点（18参与者 x 10次重复）x 432列（9特征 x 48电极）

数据集目标

使用脑电图（EEG）数据开发特征工程策略，预测脊髓损伤患者发展中枢神经痛（CNP）的可能性。

评估方法

采用Leave-One-Subject-Out交叉验证，关注准确性、敏感性和特异性。

分类算法

SVM（支持向量机）
KNN（K-最近邻）
随机森林分类器

特征工程技术

过滤方法: 使用GridSearchCV, SelectKBest, RFE, PCA等。
包装方法: 包括后向和前向特征消除。
嵌入方法: 使用L1和L2正则化，以及弹性网回归。

特征提取技术

标准化与PCA
奇异值分解（SVD）与随机PCA
t-SNE用于非线性投影
二值化
独热编码

结果总结

无特征选择: SVM: 0.81, RF: 0.86, KNN: 0.81
过滤方法: SVM: 0.91, SVM (PCA): 0.88, 手动选择: 0.9
包装方法: SVM (后向): 0.92
嵌入方法: Ridge Regression (SVM): 0.95, Ridge Regression (KNN): 0.74, Ridge Regression (RF): 0.85
特征提取: 标准化与PCA: 0.92, SVD & Randomized PCA: 0.56, t-SNE: 0.58, 二值化: 0.92, 独热编码: 1.00

结论

特征工程方法的选择显著影响模型性能。理解计算时间与准确性之间的权衡对于选择最适合特定场景的技术至关重要。

搜集汇总

数据集介绍

构建方式

该数据集通过采集18名脊髓损伤患者的脑电图（EEG）数据构建而成，旨在预测中枢神经性疼痛（CNP）的发生。每位患者的EEG数据通过48个电极以250 Hz的频率记录，分别在闭眼（EC）和睁眼（EO）状态下进行。数据经过预处理，包括信号去噪、归一化、时间分段和频带功率估计，最终生成180个数据点，每个数据点包含432个特征。

特点

该数据集的特点在于其高维度和多样性。每个数据点包含48个电极的9个特征，总计432个特征，涵盖了丰富的脑电活动信息。数据集还区分了患者是否在6个月内发展为CNP，提供了明确的分类标签。此外，数据经过多种预处理步骤，确保了数据的质量和一致性，适合用于特征工程和机器学习模型的训练与评估。

使用方法

该数据集的使用方法主要围绕特征工程和分类模型的构建展开。用户可以通过多种特征选择方法（如过滤法、包装法和嵌入法）提取关键特征，并结合支持向量机（SVM）、K近邻（KNN）和随机森林等分类器进行模型训练。评估采用留一法交叉验证，重点关注准确率、灵敏度和特异性等指标。此外，数据集还支持特征提取技术的探索，如主成分分析（PCA）、奇异值分解（SVD）和t-SNE降维等，以进一步提升模型性能。

背景与挑战

背景概述

EEG recordings dataset 是一个专注于预测脊髓损伤（SCI）患者中枢神经性疼痛（CNP）的脑电图（EEG）数据集。该数据集由18名SCI患者的EEG记录组成，其中8名患者未发展为CNP，10名患者在6个月内发展为CNP。该数据集的核心研究问题是通过EEG数据的特征工程策略，预测患者发展为CNP的可能性。该数据集的研究由相关领域的专家团队创建，旨在通过先进的机器学习方法，提升对CNP的早期预测能力，从而为临床治疗提供科学依据。该数据集在神经科学和医学工程领域具有重要的影响力，为相关研究提供了宝贵的数据资源。

当前挑战

EEG recordings dataset 面临的挑战主要包括两个方面。首先，在领域问题方面，CNP的预测具有高度复杂性，EEG信号的非线性和高维度特性使得特征提取和分类任务极具挑战性。其次，在数据集构建过程中，EEG数据的预处理和特征工程需要克服信号噪声、数据标准化、时间分段和频带功率估计等技术难题。此外，由于样本量较小，模型的泛化能力和鲁棒性也面临考验。这些挑战要求研究者在特征选择、模型优化和验证方法上进行深入探索，以确保预测结果的准确性和可靠性。

常用场景

经典使用场景

该数据集主要用于通过脑电图（EEG）数据预测脊髓损伤（SCI）患者是否会在六个月内发展为中枢性神经病理性疼痛（CNP）。研究人员利用该数据集进行特征工程，探索不同的特征选择和提取方法，以优化分类模型的性能。经典的使用场景包括使用支持向量机（SVM）、K近邻（KNN）和随机森林等分类器，结合过滤、包装和嵌入方法进行特征选择，最终通过留一法交叉验证评估模型的准确性、敏感性和特异性。

衍生相关工作

该数据集衍生了许多相关的研究工作，特别是在特征工程和机器学习领域。例如，基于该数据集的研究推动了过滤、包装和嵌入方法在EEG数据分析中的应用。此外，许多研究还探索了如何结合多种特征提取技术（如PCA、t-SNE和SVD）来优化模型性能。这些工作不仅提升了CNP预测的准确性，还为其他神经性疾病的研究提供了宝贵的经验和方法论支持。

数据集最近研究