NEDC TUH EEG Artifact Corpus
收藏arXiv2019-03-19 更新2024-06-21 收录
下载链接:
https://www.isip.piconepress.com/projects/tuh/eeg/
下载链接
链接失效反馈官方服务:
资源简介:
NEDC TUH EEG Artifact Corpus是由IBM研究院澳大利亚分院创建的全球最大的开放源EEG伪影识别数据集,包含来自213名患者的259个EEG会话数据。数据集主要包含五种伪影事件:眼动、咀嚼、颤抖、电极弹跳和肌肉运动,以及非伪影的空类。创建过程涉及将原始EEG信号转换为22通道的TCP系统,并应用FFT技术提取特征。该数据集旨在通过自动化识别和移除EEG伪影,提高EEG信号分析的效率和准确性,从而辅助临床诊断。
NEDC TUH EEG Artifact Corpus, developed by the IBM Research Australia division, is the world's largest open-source EEG artifact recognition dataset, comprising 259 EEG session datasets from 213 patients. The dataset primarily covers five types of artifact events: eye movement, mastication, tremor, electrode pop, and muscle movement, as well as a non-artifact empty class. During its construction, raw EEG signals were converted into a 22-channel TCP system, and Fast Fourier Transform (FFT) was utilized to extract features. This dataset aims to improve the efficiency and accuracy of EEG signal analysis via automated identification and removal of EEG artifacts, thereby assisting clinical diagnosis.
提供机构:
IBM研究院澳大利亚分院
创建时间:
2019-03-19
搜集汇总
数据集介绍

构建方式
在脑电图信号分析领域,NEDC TUH EEG Artifact Corpus的构建体现了对大规模、标准化数据的需求。该数据集源自259个脑电图会话,覆盖213名患者,总计包含66638秒的伪迹数据。构建过程中,数据被划分为训练集、验证集和测试集,比例分别为60%、20%和20%,以确保算法能够跨患者泛化。每个会话中的伪迹事件被精细标注为五类:眼动、咀嚼、颤抖、电极爆裂和肌肉运动,同时非伪迹片段被标记为空类,从而形成一个六分类任务。数据预处理包括将原始脑电图信号转换为TCP导联系统以增强尖波活动,并提取频率在1至24赫兹范围内的快速傅里叶变换特征,最终通过特征工程生成相关矩阵的特征值作为机器学习输入。
特点
NEDC TUH EEG Artifact Corpus作为全球最大的开源脑电图伪迹识别数据集,其显著特点在于规模宏大且类别多样。数据集涵盖了五种常见的生理性和技术性伪迹类型,每种伪迹均基于患者级别进行统计,确保了数据的临床代表性。例如,眼动伪迹涉及140名患者和24064秒数据,而颤抖伪迹则相对稀少,仅包含14名患者和4005秒数据,这种不平衡分布反映了真实世界脑电图记录的复杂性。此外,数据集以每秒为单位进行精细标注,支持时间序列上的连续识别,而非基于事件的决策,这为开发高精度自动化伪迹去除系统提供了坚实基础。其开源性质进一步促进了研究可重复性和跨领域合作。
使用方法
使用NEDC TUH EEG Artifact Corpus时,研究者通常遵循标准化的机器学习流程以优化伪迹识别性能。首先,数据需按患者级别分割为训练、验证和测试子集,以避免数据泄漏并评估模型泛化能力。预处理阶段涉及信号导联转换和特征提取,例如通过快速傅里叶变换生成频域特征,并计算相关矩阵的特征值作为输入向量。针对数据不平衡问题,可采用欠采样技术调整多数类样本。在模型选择上,数据集支持多种监督学习算法,如线性判别分析、随机森林和XGBoost,并通过超参数优化工具如HyperOpt进行调优。评估指标侧重于加权F1分数和灵敏度,以全面衡量模型在各类伪迹上的识别效果,尤其关注颤抖等罕见伪迹的检测能力。
背景与挑战
背景概述
脑电图(EEG)信号分析在神经科学和临床诊断中具有核心地位,但信号常受眼动、咀嚼、颤抖等多种伪迹干扰,导致解读困难。传统人工去除伪迹方法依赖专业医师,耗时耗力且易出错。为此,自动化伪迹识别系统成为研究热点,然而过往研究多受限于封闭或小规模数据集,难以实现可复现的统计显著结论。在此背景下,NEDC TUH EEG Artifact Corpus于2018年12月由天普大学等机构公开,作为全球最大的开源EEG伪迹数据集,它收录了来自213名患者的259段EEG会话,涵盖五类常见伪迹及空类别,总计超过66638秒标注数据,旨在为机器学习算法提供标准化评估基准,推动自动化伪迹去除技术的发展,提升临床诊断效率与准确性。
当前挑战
该数据集致力于解决EEG信号中自动化伪迹识别的核心挑战,即如何精准区分并去除混杂于神经活动中的多种生理性与技术性干扰。具体而言,挑战体现在两方面:其一,领域问题层面,EEG伪迹形态多样且与真实神经信号频谱重叠,尤其是颤抖等低频伪迹的识别灵敏度较低,现有算法在跨患者泛化与类别不平衡处理上仍存局限;其二,构建过程层面,数据采集需协调多中心临床协议,确保标注一致性,同时面对海量原始信号(如1366299秒空类别数据)的预处理与特征提取,需设计高效蒙太奇转换与频域分析方法,以平衡计算复杂度与信息保留。
常用场景
经典使用场景
在脑电图信号处理领域,NEDC TUH EEG Artifact Corpus作为全球最大的开源伪迹识别数据集,其经典使用场景集中于自动化伪迹检测与分类研究。该数据集通过提供大量标注的脑电图会话,涵盖眼动、咀嚼、颤抖、电极爆裂和肌肉运动等多种伪迹类型,为机器学习算法提供了丰富的训练与验证基础。研究人员利用该数据集开发高效分类模型,旨在实现脑电图信号的自动清洗,从而提升信号分析的准确性与效率。
解决学术问题
该数据集有效解决了脑电图分析中长期存在的学术难题,即如何自动化识别并去除信号中的伪迹干扰。传统方法依赖人工标注,耗时且易出错,而该数据集通过大规模开源标注数据,为算法开发提供了标准化基准。它促进了机器学习在脑电图伪迹识别中的应用,推动了信号处理技术的进步,并为临床诊断的自动化与精准化奠定了数据基础。
衍生相关工作
基于该数据集,衍生出多项经典研究工作,主要集中在机器学习算法的优化与比较上。例如,研究团队利用线性判别分析、随机森林和XGBoost等算法进行伪迹分类,并发布了首个性能基准。这些工作不仅推动了脑电图信号处理领域的发展,还激发了后续研究,如深度学习模型的引入和跨患者泛化能力的提升,进一步拓展了自动化脑电图分析的应用前景。
以上内容由遇见数据集搜集并总结生成



