TUH-EEG-Dataset

github2022-03-17 更新2024-05-31 收录

下载链接：

https://github.com/HaojiongZhang/TUH-EEG-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该项目旨在获取并重构由Temple大学医院提供的30,000份EEG患者文件，将其转换为一个便于获取干净时段用于训练机器学习模型并获得各个数据集之间联系的全局视图的数据库。数据集采用两级层次结构设计，顶层CSV文件总结了其他数据集的元数据。每行由患者ID和会话号组合唯一确定，结合特定标签/伪影可从低级CSV文件中获取具体信息。

This project aims to acquire and restructure 30,000 EEG patient files provided by Temple University Hospital, transforming them into a database that facilitates the extraction of clean segments for training machine learning models and obtaining a global view of the connections between various datasets. The dataset is designed with a two-level hierarchical structure, where the top-level CSV files summarize the metadata of other datasets. Each row is uniquely determined by a combination of patient ID and session number, and specific information can be retrieved from lower-level CSV files using particular labels/artifacts.

创建时间：

2022-03-17

原始信息汇总

TUH-EEG-Dataset 概述

数据集目的

本项目旨在将 Temple University Hospital 提供的 30,000 份 EEG 患者文件整理成一个便于提取干净时段以训练机器学习模型，并能全局了解各个数据集之间联系的数据库。

数据集结构

数据集采用两级层次结构设计，顶层 CSV 文件汇总了其他数据集的元数据。每行数据由患者 ID 和会话号组合唯一确定，结合特定的标签/人工制品，可从下级 CSV 文件中获取具体信息。

文件概览

Extract.py: 从 TUSZ 数据集中提取和解析数据的示例代码。
Label.py: 从 TUH 数据集中的 .lbl 和 .tse 文件提取数据的代码。
Queries.py: 数据库查询代码。
database folder: 包含两级 CSV 设计，具体包括：
- 顶层实体
- TUAB 数据集
- TUAR 数据集
- TUEP 数据集

搜集汇总

数据集介绍

构建方式

TUH-EEG-Dataset的构建基于天普大学医院提供的30,000份EEG患者文件，旨在将这些数据重新格式化，以便于获取干净的训练数据片段，并深入探索各个数据集之间的关联。数据集采用了两层级的CSV文件结构设计，顶层CSV文件汇总了其他数据集的元数据，每一行通过患者ID和会话编号唯一标识，结合特定的标签或伪影信息，可以从底层CSV文件中提取具体信息。

特点

TUH-EEG-Dataset的特点在于其结构化的数据组织方式，通过两层级的CSV文件设计，使得数据的查询和提取变得高效且直观。数据集不仅包含了丰富的EEG信号数据，还提供了详细的元数据信息，如患者ID、会话编号以及标签等，这些信息为机器学习模型的训练提供了坚实的基础。此外，数据集还附带了多个工具脚本，如数据提取、标签解析和数据库查询等，极大地方便了研究人员的使用。

使用方法

使用TUH-EEG-Dataset时，研究人员可以通过提供的Python脚本（如Extract.py、Label.py和Queries.py）来提取、解析和查询数据。Extract.py用于从TUSZ语料库中提取和解析数据，Label.py则用于从.lbl和.tse文件中提取标签信息，Queries.py则提供了对数据库的查询功能。通过这些工具，用户可以轻松地获取所需的EEG数据片段，并结合元数据进行深入分析。

背景与挑战

背景概述

TUH-EEG-Dataset是由天普大学医院提供的30,000份脑电图（EEG）患者文件构成的数据集，旨在为机器学习模型的训练提供易于获取的干净数据片段，并深入探索各个数据集之间的关联。该数据集采用两级层次结构设计，顶层CSV文件汇总了其他数据集的元数据，每行数据通过患者ID和会话编号唯一确定，结合特定标签或伪影信息，可以从底层CSV文件中提取具体信息。该数据集的创建为脑电图分析领域的研究提供了重要的数据支持，推动了机器学习在医疗诊断中的应用。

当前挑战

TUH-EEG-Dataset在构建和应用过程中面临多重挑战。首先，脑电图数据的复杂性和多样性使得数据清洗和标准化成为关键问题，如何有效去除噪声和伪影是提升模型性能的核心挑战。其次，数据集的规模庞大且结构复杂，如何高效地提取和组织数据以支持机器学习模型的训练需求，是技术实现上的重要难题。此外，脑电图数据的多维度特性要求研究者开发新的算法和工具，以充分挖掘数据中的潜在信息，从而推动脑电图分析技术的进一步发展。

常用场景

经典使用场景

TUH-EEG-Dataset广泛应用于脑电图（EEG）信号处理领域，特别是在癫痫检测和脑功能研究中。该数据集通过提供大量患者的EEG记录，使得研究人员能够训练和验证机器学习模型，以识别和分类不同的脑电活动模式。其层次化的数据结构设计，便于快速获取特定患者的脑电数据，为研究提供了极大的便利。

衍生相关工作

基于TUH-EEG-Dataset，许多经典的研究工作得以展开。例如，研究人员开发了多种深度学习模型，用于自动检测癫痫发作和脑电信号中的异常模式。此外，该数据集还催生了一系列关于脑电信号预处理和特征提取的研究，为脑电图数据分析提供了新的方法和工具。这些工作不仅推动了脑电图技术的发展，也为相关领域的应用奠定了基础。

数据集最近研究