TUH EEG Seizure Corpus (TUSZ)

Name: TUH EEG Seizure Corpus (TUSZ)
Creator: 天普大学电气与计算机工程系
Published: 2018-01-03 09:16:26
License: 暂无描述

arXiv2018-01-03 更新2024-06-21 收录

下载链接：

https://www.isip.piconepress.com/projects/tuh_eeg/downloads/

下载链接

链接失效反馈

官方服务：

资源简介：

TUH EEG Seizure Corpus (TUSZ) 是由天普大学医院创建的大型开放源代码数据集，专注于癫痫发作检测。该数据集包含从16,168个会话中筛选出的872个高产数据会话，共计280个会话包含实际癫痫发作事件。TUSZ通过自动筛选和手动注释相结合的方式创建，旨在为深度学习技术提供大量标注数据，以解决癫痫发作检测等临床问题。数据集不仅包含EEG信号数据，还有详细的注释和元数据，支持多种癫痫类型的识别，适用于机器学习和神经科学研究。

TUH EEG Seizure Corpus (TUSZ) is a large open-source dataset developed by Temple University Hospital, focusing on seizure detection. It comprises 872 high-yield data sessions screened from 16,168 total sessions, with 280 of these sessions containing actual seizure events. TUSZ was created through a combination of automated screening and manual annotation, with the goal of providing large volumes of labeled data for deep learning technologies to address clinical problems such as seizure detection. The dataset not only includes EEG signal data, but also detailed annotations and metadata, enabling the recognition of multiple epilepsy types and being suitable for machine learning and neuroscience research.

提供机构：

天普大学电气与计算机工程系

创建时间：

2018-01-03

搜集汇总

数据集介绍

构建方式

在癫痫检测领域，构建大规模标注数据集面临数据稀缺与标注成本高昂的双重挑战。TUH EEG Seizure Corpus (TUSZ) 的构建采用了一种高效的三阶段筛选策略，以从庞大的原始脑电图记录中精准定位癫痫事件。首先，通过对临床报告进行自然语言处理，识别包含癫痫相关关键词的会话；其次，利用商业软件 Persyst 与实验性深度学习系统 AutoEEG 进行自动癫痫检测，并将两者结果一致的记录列为高优先级标注对象。最终，由经过专业训练的本科生团队使用开源标注工具对筛选出的高价值数据进行手动精细标注，其标注质量经与神经学家比对验证，达到了极高的评分者间一致性。

使用方法

TUSZ 数据集旨在为机器学习，特别是深度学习模型在癫痫自动检测领域的研究与开发提供基准资源。使用者可通过官方网站在注册后下载数据，数据已预先划分为训练集与评估集，以支持模型的训练与性能验证。研究人员可利用提供的原始信号、双重格式的标注文件以及全面的元数据，进行特征提取、模型训练及算法评估。数据集支持使用配套的开源可视化工具进行时间对齐的标注查看与分析。其紧凑而具代表性的评估集设计，允许研究者在适度计算资源下快速进行实验迭代。该数据集可直接用于开发实时癫痫检测系统、探索癫痫发作的神经机制等跨学科研究。

背景与挑战

背景概述

脑电图（EEG）作为临床神经功能诊断的核心工具，已有超过七十年的应用历史，尤其在癫痫发作检测等神经疾病识别中发挥着不可替代的作用。随着长时程连续脑电监测技术的普及，海量数据的产生使得人工解读面临巨大挑战，催生了高性能自动分析软件的迫切需求。在此背景下，天普大学医院的研究团队于2016年启动了TUH EEG Seizure Corpus（TUSZ）的构建工作，旨在创建全球规模最大的开源癫痫发作检测数据集。该数据集依托天普大学神经工程数据联盟（NEDC）的专业力量，通过创新的数据筛选与标注流程，系统性地收录了来自多种临床环境的脑电记录，为深度学习模型在癫痫检测领域的研发提供了关键的数据支撑，显著推动了脑电自动分析技术的临床转化进程。

当前挑战

在癫痫发作检测领域，核心挑战在于发作事件的稀疏性与形态多样性，导致模型难以从海量脑电数据中精准识别短暂且多变的发作模式。TUSZ针对此问题，需克服标注样本极度稀缺的困境，发作事件在原始数据中占比不足0.1%，使得传统全数据标注方法成本高昂且效率低下。在数据集构建过程中，研究团队面临三重主要挑战：一是如何从数万小时脑电记录中高效筛选出包含发作事件的高价值片段，团队融合了关键词检索、商业软件与实验性深度学习系统进行联合筛选，但自动检测工具对短时发作的识别性能仍显不足；二是专业标注资源的高度稀缺，标注工作依赖经过严格训练的本科生团队以逼近神经学专家的精度完成，这要求建立复杂的培训与验证机制；三是数据表征的复杂性，发作作为渐进性生物过程缺乏清晰起止边界，需同时提供基于通道的细粒度标注与基于术语的聚合标注，以平衡模型训练的细节需求与计算效率。

常用场景

经典使用场景

在癫痫检测与神经工程领域，TUH EEG Seizure Corpus (TUSZ) 作为目前规模最大的公开脑电癫痫数据集，其经典应用场景集中于机器学习模型的训练与验证。该数据集通过精心标注的癫痫发作事件，为研究人员提供了丰富的信号样本，支持从传统特征提取到深度神经网络等多种算法的开发。尤其在癫痫自动检测任务中，TUSZ 的高质量标注使得模型能够学习到癫痫发作的细微特征，从而提升在临床长时监测数据上的泛化性能。

解决学术问题

TUSZ 主要解决了癫痫检测研究中数据稀缺与标注成本高昂的学术难题。以往如 CHB-MIT 等小型数据集难以支撑复杂深度学习模型的训练，且其性能往往无法反映真实临床环境。TUSZ 通过三重数据筛选策略（关键词搜索、商业软件检测与实验性深度学习系统）高效定位癫痫事件，并利用训练有素的标注团队以较低成本完成高质量标注，从而为大规模监督学习提供了可靠基础，显著推动了癫痫自动检测算法的临床转化研究。

实际应用

在实际医疗场景中，TUSZ 为癫痫监测单元（EMU）与重症监护室（ICU）的实时脑电分析系统提供了关键数据支持。基于该数据集训练的模型可集成于临床脑电监测软件，辅助神经科医生快速识别长时记录中的癫痫发作事件，减轻人工审阅负担。此外，TUSZ 涵盖多种癫痫类型与不同患者群体（如儿科、成人），其多样性确保了算法在多样化临床环境中的适用性，为个性化癫痫管理工具的开发奠定了数据基础。

数据集最近研究