five

TUH-EEG-Dataset|脑电图数据集|机器学习数据集

收藏
github2022-03-17 更新2024-05-31 收录
脑电图
机器学习
下载链接:
https://github.com/HaojiongZhang/TUH-EEG-Dataset
下载链接
链接失效反馈
资源简介:
该项目旨在获取并重构由Temple大学医院提供的30,000份EEG患者文件,将其转换为一个便于获取干净时段用于训练机器学习模型并获得各个数据集之间联系的全局视图的数据库。数据集采用两级层次结构设计,顶层CSV文件总结了其他数据集的元数据。每行由患者ID和会话号组合唯一确定,结合特定标签/伪影可从低级CSV文件中获取具体信息。

This project aims to acquire and restructure 30,000 EEG patient files provided by Temple University Hospital, transforming them into a database that facilitates the extraction of clean segments for training machine learning models and obtaining a global view of the connections between various datasets. The dataset is designed with a two-level hierarchical structure, where the top-level CSV files summarize the metadata of other datasets. Each row is uniquely determined by a combination of patient ID and session number, and specific information can be retrieved from lower-level CSV files using particular labels/artifacts.
创建时间:
2022-03-17
原始信息汇总

TUH-EEG-Dataset 概述

数据集目的

本项目旨在将 Temple University Hospital 提供的 30,000 份 EEG 患者文件整理成一个便于提取干净时段以训练机器学习模型,并能全局了解各个数据集之间联系的数据库。

数据集结构

数据集采用两级层次结构设计,顶层 CSV 文件汇总了其他数据集的元数据。每行数据由患者 ID 和会话号组合唯一确定,结合特定的标签/人工制品,可从下级 CSV 文件中获取具体信息。

文件概览

  • Extract.py: 从 TUSZ 数据集中提取和解析数据的示例代码。
  • Label.py: 从 TUH 数据集中的 .lbl 和 .tse 文件提取数据的代码。
  • Queries.py: 数据库查询代码。
  • database folder: 包含两级 CSV 设计,具体包括:
    • 顶层实体
    • TUAB 数据集
    • TUAR 数据集
    • TUEP 数据集
AI搜集汇总
数据集介绍
main_image_url
构建方式
TUH-EEG-Dataset的构建基于天普大学医院提供的30,000份EEG患者文件,旨在将这些数据重新格式化,以便于获取干净的训练数据片段,并深入探索各个数据集之间的关联。数据集采用了两层级的CSV文件结构设计,顶层CSV文件汇总了其他数据集的元数据,每一行通过患者ID和会话编号唯一标识,结合特定的标签或伪影信息,可以从底层CSV文件中提取具体信息。
特点
TUH-EEG-Dataset的特点在于其结构化的数据组织方式,通过两层级的CSV文件设计,使得数据的查询和提取变得高效且直观。数据集不仅包含了丰富的EEG信号数据,还提供了详细的元数据信息,如患者ID、会话编号以及标签等,这些信息为机器学习模型的训练提供了坚实的基础。此外,数据集还附带了多个工具脚本,如数据提取、标签解析和数据库查询等,极大地方便了研究人员的使用。
使用方法
使用TUH-EEG-Dataset时,研究人员可以通过提供的Python脚本(如Extract.py、Label.py和Queries.py)来提取、解析和查询数据。Extract.py用于从TUSZ语料库中提取和解析数据,Label.py则用于从.lbl和.tse文件中提取标签信息,Queries.py则提供了对数据库的查询功能。通过这些工具,用户可以轻松地获取所需的EEG数据片段,并结合元数据进行深入分析。
背景与挑战
背景概述
TUH-EEG-Dataset是由天普大学医院提供的30,000份脑电图(EEG)患者文件构成的数据集,旨在为机器学习模型的训练提供易于获取的干净数据片段,并深入探索各个数据集之间的关联。该数据集采用两级层次结构设计,顶层CSV文件汇总了其他数据集的元数据,每行数据通过患者ID和会话编号唯一确定,结合特定标签或伪影信息,可以从底层CSV文件中提取具体信息。该数据集的创建为脑电图分析领域的研究提供了重要的数据支持,推动了机器学习在医疗诊断中的应用。
当前挑战
TUH-EEG-Dataset在构建和应用过程中面临多重挑战。首先,脑电图数据的复杂性和多样性使得数据清洗和标准化成为关键问题,如何有效去除噪声和伪影是提升模型性能的核心挑战。其次,数据集的规模庞大且结构复杂,如何高效地提取和组织数据以支持机器学习模型的训练需求,是技术实现上的重要难题。此外,脑电图数据的多维度特性要求研究者开发新的算法和工具,以充分挖掘数据中的潜在信息,从而推动脑电图分析技术的进一步发展。
常用场景
经典使用场景
TUH-EEG-Dataset广泛应用于脑电图(EEG)信号处理领域,特别是在癫痫检测和脑功能研究中。该数据集通过提供大量患者的EEG记录,使得研究人员能够训练和验证机器学习模型,以识别和分类不同的脑电活动模式。其层次化的数据结构设计,便于快速获取特定患者的脑电数据,为研究提供了极大的便利。
衍生相关工作
基于TUH-EEG-Dataset,许多经典的研究工作得以展开。例如,研究人员开发了多种深度学习模型,用于自动检测癫痫发作和脑电信号中的异常模式。此外,该数据集还催生了一系列关于脑电信号预处理和特征提取的研究,为脑电图数据分析提供了新的方法和工具。这些工作不仅推动了脑电图技术的发展,也为相关领域的应用奠定了基础。
数据集最近研究
最新研究方向
近年来,TUH-EEG数据集在脑电图(EEG)信号处理与机器学习领域引起了广泛关注。该数据集包含了来自Temple大学医院的30,000份EEG患者文件,经过重新格式化后,为研究者提供了易于获取的干净时段数据,用于训练机器学习模型。当前的研究热点主要集中在如何利用该数据集进行癫痫发作预测、脑机接口开发以及神经疾病的早期诊断。通过多层次的CSV文件结构,研究者能够高效地提取和分析特定患者的EEG数据,结合标签和伪影信息,进一步探索不同脑区之间的连接模式。这一数据集的应用不仅推动了脑电图信号处理技术的发展,还为神经科学和临床医学提供了重要的数据支持,具有深远的学术和实际意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录