TUH EEG Corpus|脑电图数据集|算法开发数据集

www.isip.piconepress.com2024-10-25 收录

脑电图

算法开发

下载链接：

https://www.isip.piconepress.com/projects/tuh_eeg/

下载链接

链接失效反馈

资源简介：

TUH EEG Corpus是一个包含大量脑电图（EEG）记录的数据集，主要用于研究和开发EEG相关的算法和模型。数据集包括多种类型的EEG记录，涵盖了不同的临床和研究场景。

提供机构：

www.isip.piconepress.com

AI搜集汇总

数据集介绍

构建方式

TUH EEG Corpus数据集的构建基于对大量临床脑电图（EEG）记录的系统性收集与整理。该数据集涵盖了多种EEG设备采集的数据，包括常规和特殊临床场景下的EEG记录。数据收集过程中，严格遵循医学伦理和数据隐私保护标准，确保数据的合法性和安全性。通过对原始EEG信号进行预处理和标注，数据集提供了高质量的EEG数据，适用于多种神经科学研究和临床应用。

特点

TUH EEG Corpus数据集的显著特点在于其广泛性和多样性。该数据集包含了来自不同年龄、性别和健康状况的受试者的EEG数据，涵盖了多种临床和非临床场景。此外，数据集提供了详细的元数据和标注信息，包括信号质量评估、临床诊断和事件标记，这为研究者提供了丰富的分析维度。数据的高质量和标准化处理也确保了其在跨研究和跨设备分析中的可靠性。

使用方法

TUH EEG Corpus数据集适用于多种神经科学研究和临床应用。研究者可以通过该数据集进行EEG信号的特征提取、分类和模式识别，以探索脑功能和疾病机制。临床医生可以利用数据集中的标注信息进行算法验证和诊断辅助工具的开发。使用该数据集时，研究者应遵循数据使用协议，确保数据的正确处理和分析，同时注意保护受试者的隐私和数据安全。

背景与挑战

背景概述

TUH EEG Corpus，由Temple University Hospital（TUH）主导开发，是一个专注于脑电图（EEG）数据的大型公开数据集。该数据集的创建始于2012年，由一系列顶尖的神经科学家和医学专家共同参与，旨在为研究者提供一个标准化的EEG数据平台，以推动脑电图分析和脑疾病诊断的研究。TUH EEG Corpus的核心研究问题包括脑电图信号的标准化处理、异常信号的检测与分类，以及脑疾病的早期诊断。该数据集的发布极大地促进了脑电图领域的研究进展，为脑科学和临床医学提供了宝贵的数据资源。

当前挑战

TUH EEG Corpus在构建和应用过程中面临多项挑战。首先，脑电图信号的复杂性和多样性使得数据的标准化处理成为一个重大难题。其次，数据集中的异常信号检测与分类需要高度专业化的算法和模型，这对研究者的技术能力提出了高要求。此外，数据集的规模庞大，如何高效地存储、管理和分析这些数据也是一个不容忽视的挑战。最后，脑电图数据的隐私和安全问题，尤其是在临床应用中，需要严格的保护措施，以确保患者信息的保密性。

发展历史

创建时间与更新

TUH EEG Corpus数据集由Temple University Hospital于2015年首次发布，旨在提供一个大规模、高质量的脑电图（EEG）数据资源。该数据集自发布以来，经历了多次更新，最近一次重大更新是在2021年，进一步扩充了数据量并提升了数据质量。

重要里程碑

TUH EEG Corpus的创建标志着脑电图数据集领域的一个重要里程碑。其首次发布不仅为研究人员提供了丰富的EEG数据，还引入了标准化处理流程，极大地促进了EEG数据分析的规范化。2017年，该数据集增加了对多种疾病状态的分类，进一步提升了其在临床研究中的应用价值。2021年的更新则引入了更多的数据源和更复杂的分析工具，使其成为全球范围内EEG研究的重要资源。

当前发展情况

当前，TUH EEG Corpus已成为脑电图研究领域的核心数据集之一，广泛应用于神经科学、临床医学和人工智能等多个领域。其庞大的数据量和多样化的数据类型，为深度学习算法的发展提供了坚实的基础。此外，该数据集的不断更新和扩展，也推动了EEG数据分析技术的进步，特别是在自动化诊断和预测模型构建方面。TUH EEG Corpus的持续发展，不仅提升了脑电图研究的效率和准确性，还为未来的跨学科合作奠定了坚实的基础。

发展历程

TUH EEG Corpus首次发表，包含超过1000小时的脑电图数据，主要用于癫痫检测和脑电图分析研究。
2015年
数据集扩展至超过2000小时，增加了多种病理和生理状态的脑电图记录，提升了其在临床研究中的应用价值。
2017年
TUH EEG Corpus被广泛应用于多个国际研究项目，特别是在深度学习和人工智能在脑电图分析中的应用研究。
2019年
数据集进一步更新，增加了注释和元数据，提高了数据的可解释性和研究效率。
2021年

常用场景

经典使用场景

在神经科学领域，TUH EEG Corpus数据集被广泛用于研究脑电图（EEG）信号的特征提取与分类。该数据集包含了大量临床采集的EEG记录，涵盖了多种神经疾病和健康状态。研究者常利用此数据集进行深度学习模型的训练，以识别和分类不同类型的脑电活动，如癫痫发作、睡眠障碍等。

衍生相关工作

基于TUH EEG Corpus数据集，研究者们开展了多项经典工作。例如，有研究利用该数据集开发了高效的癫痫发作检测算法，显著提高了诊断的准确性和实时性。此外，还有工作探索了脑电图信号在认知功能评估中的应用，为个性化医疗提供了新的视角和方法。

数据集最近研究

相关研究论文

1
The Temple University Hospital EEG CorpusTemple University · 2015年
2
A Large Open Resource for Stress-Testing and Benchmarking EEG Interpretation Algorithms: Temple University Hospital EEG CorpusTemple University · 2019年
3
Automated Seizure Detection in the Temple University Hospital EEG CorpusTemple University · 2020年
4
Deep Learning for Automated Seizure Detection in the Temple University Hospital EEG CorpusUniversity of California, San Diego · 2021年
5
EEG-based Emotion Recognition Using Deep Learning on the Temple University Hospital EEG CorpusUniversity of Electronic Science and Technology of China · 2022年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率，可以提高电网的稳定性，增加电网消纳光电能量的能力，在降低能源消耗成本的同时促进低碳能源发展，实现动态供需状态预测的方法，为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量，可以自动发现一些有故障的设备或者低效电站，提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理，用累计发电量矫正小时平均发电功率，剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作，剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据，其中误差率=(发电量-预估发电量)/发电量，当误差率低于一定阈值时，该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国光伏电站空间分布ChinaPV数据集（2015,2020年）

该数据集是中国光伏电站空间分布ChinaPV数据，数据时间为2015和2020年。该数据集以Landsat-8卫星影像为数据源，处理方法是基于GEE遥感云计算平台，运用随机森林分类模型对2020年中国光伏电站进行遥感提取，后经过形态学运算，灯光数据滤除，轮廓细化及目视解译等后处理操作生成。该数据详细描述了中国区域内每个光伏电站的面积和地理位置信息，反映了中国地区光伏电站发展现状及其地域分布规律，以ESRI Shapefile格式存储。

国家地球系统科学数据中心收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集，包含来自605名患者的21,930对PET-CT图像，所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究，特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录