LEAD

github2025-02-13 更新2025-02-14 收录

下载链接：

https://github.com/DL4mHealth/LEAD

下载链接

链接失效反馈

官方服务：

资源简介：

LEAD是一个用于基于EEG的阿尔茨海默病检测的大型基础模型，训练数据包含了世界上迄今为止最大的EEG-AD语料库，涵盖813名受试者。该模型在一个完整的数据处理流程中表现出色，包括数据选择、预处理、自监督对比预训练、微调以及关键设置，如受试者独立评估和多数投票进行受试者级别的检测。

LEAD is a large foundational model for EEG-based Alzheimer's disease detection. Its training data adopts the largest EEG-AD corpus in the world to date, covering 813 subjects. This model exhibits excellent performance throughout a complete data processing pipeline, including data selection, preprocessing, self-supervised contrastive pre-training, fine-tuning, and key configurations such as subject-independent evaluation and majority voting for subject-level detection.

创建时间：

2025-01-30

原始信息汇总

LEAD: 大型基础模型用于基于EEG的阿尔茨海默病检测

数据集概览

LEAD是一个用于基于EEG的阿尔茨海默病检测的大型基础模型。该模型在世界上最大的EEG-AD语料库上进行训练，包含813名受试者的数据。

数据集详情

数据选择：数据集分为AD数据集和非AD数据集。共有9个AD数据集和7个非AD数据集。
- AD数据集：包括6个公开数据集和3个私有数据集。
- 非AD数据集：包括7个神经疾病或健康受试者的大型数据集。
数据预处理：包括去伪迹、通道对齐、频率对齐、样本分割、频率过滤和标准化。
处理后的数据集：
- 预训练数据集：11个数据集，包括7个非AD数据集和4个AD数据集，共2,354名受试者，1,165,361个1秒、128Hz样本。
- 微调数据集：5个下游数据集，共615名受试者，223,039个1秒、128Hz样本。

数据集统计

预训练数据集：共2,354名受试者，1,165,361个样本。
微调数据集：共615名受试者，223,039个样本。

数据集下载

处理后的数据集可以通过以下链接下载：Google Drive。

Requirements

Python 3.8
Jupyter Notebook
以及一系列Python库

数据集使用

使用前需要确保所有处理后的数据集放在dataset/目录下。
可以参考scripts/目录下的脚本进行实验。
可以通过修改meta-run.sh文件中的脚本来运行所有实验。

从头开始训练

由于有三个私有数据集，无法使用所有数据集从头开始训练。但是可以使用公开数据集进行部分训练。

模型应用

提供了将预训练模型应用于自定义数据集的指南。

LEAD数据集概览

数据集描述

数据集名称：LEAD
数据集用途：基于EEG的阿尔茨海默病检测
数据集规模：预训练数据集包含2,354名受试者，1,165,361个样本；微调数据集包含615名受试者，223,039个样本。
数据集类型：AD数据集和非AD数据集
数据预处理：去伪迹、通道对齐、频率对齐、样本分割、频率过滤和标准化
数据集来源：包括公开数据集和私有数据集

数据集构成

AD数据集：6个公开数据集和3个私有数据集
非AD数据集：7个神经疾病或健康受试者的大型数据集

数据集下载

处理后的数据集下载链接：Google Drive

搜集汇总

数据集介绍

构建方式

LEAD数据集的构建涵盖数据选择、预处理、自我监督对比预训练、多数据集微调等步骤，旨在检测阿尔茨海默病。首先，通过综合16个数据集构建了一个大规模的基础模型，包括9个AD数据集和7个非AD数据集，共计2354名受试者和1165361个1秒128Hz样本。数据预处理包括去伪迹、通道对齐、频率对齐、样本分割、频率过滤和标准化等步骤，以保证数据的质量和一致性。自我监督预训练设计包括样本级和受试者级对比，以提取通用的EEG特征。微调在5个通道对齐的数据集上进行，以适应不同受试者间的变异。

特点

LEAD数据集的特点在于其规模庞大、数据多样性和预处理精细。它包含了目前世界上最大的EEG-AD语料库，涵盖了不同年龄段和疾病状态下的受试者。数据集的预处理步骤严格，确保了数据的质量。此外，自我监督预训练和通道对齐的微调策略有效地处理了受试者间的变异性，提高了模型对阿尔茨海默病的检测性能。

使用方法

使用LEAD数据集时，首先需要确保所有处理后的数据集都放置在`dataset/`目录下。可以通过命令行参数指定训练和测试数据集，以及模型的配置。训练过程中，可以使用已提供的预处理脚本和加载器来处理自定义数据集，并将其添加到训练或测试数据集中。此外，可以从提供的链接下载预训练模型，并在自定义数据集上进行微调，以评估模型性能。

背景与挑战

背景概述

LEAD数据集是一个面向脑电图(EEG)基于阿尔茨海默病(AD)检测的大型基础模型。该数据集由16个子数据集组成，包含813名受试者的EEG数据，是世界上迄今为止最大的EEG-AD语料库。研究团队引入了一种涵盖整个管道的方法，从数据选择和预处理到自监督对比预训练、微调，以及关键设置，如独立于受试者的评估和多数投票进行受试者级别检测。该方法在自监督预训练设计中包含了样本级别和受试者级别的对比，以提取有用的泛EEG特征。在5个通道对齐的数据集上进行微调，骨干编码器结合了时间和通道嵌入，以捕捉跨时间和空间维度的特征。该研究结果表明，与最先进的方法相比，LEAD模型在样本级别和受试者级别的AD检测性能上均有显著提升。

当前挑战

LEAD数据集在构建过程中面临的挑战主要包括：1) 数据选择和预处理，包括 artifacts 移除、通道对齐、频率对齐、样本分割、频率滤波和标准化；2) 自监督对比预训练和通道对齐的统一微调，以解决受试者间的变异性；3) 在保留关键频率带的同时，减少噪声并提高模型对AD特征的学习能力。

常用场景

经典使用场景

LEAD数据集被广泛应用于基于脑电图(EEG)的阿尔茨海默病(AD)检测领域，其经典使用场景在于构建和训练大规模基础模型，以识别和区分AD患者与健康个体。该数据集整合了自监督对比预训练和跨数据集统一微调的策略，有效提升了模型对AD病症的检测性能。

解决学术问题

LEAD数据集解决了传统EEG信号处理中存在的个体间变异性问题，通过自监督预训练提取通用EEG特征，并结合特定AD数据集的微调，提高了对AD病症的检测准确率，为学术界提供了强大的工具来研究和诊断阿尔茨海默病。

衍生相关工作

LEAD数据集的发布促进了相关领域的研究，衍生出了一系列相关工作。这些研究不仅探索了EEG信号处理的新方法，还扩展了LEAD模型在其它神经系统疾病检测中的应用，为脑科学研究提供了新的视角和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集