chb-mit-seizure-windows-2to1
收藏Hugging Face2026-03-05 更新2026-03-06 收录
下载链接:
https://huggingface.co/datasets/smam/chb-mit-seizure-windows-2to1
下载链接
链接失效反馈官方服务:
资源简介:
CHB-MIT癫痫发作检测数据集是一个经过预处理和平衡的版本,源自CHB-MIT头皮脑电图数据库,专为二元癫痫分类任务设计。数据集采用8秒窗口大小,采样率为200 Hz,包含18个标准化通道(原始为23个),每个窗口包含1600个样本。非癫痫与癫痫样本的比例为2:1。平衡策略包括仅使用完全处于癫痫发作状态的8秒窗口,癫痫窗口采用50%重叠采样,非癫痫窗口则随机采样,确保每位患者的非癫痫窗口数量是癫痫窗口的两倍。数据以HDF5格式存储,结构清晰,便于访问和使用。该数据集适用于癫痫检测、时间序列分类等医学和神经科学研究任务。
创建时间:
2026-02-26
原始信息汇总
CHB-MIT Seizure Detection - Balanced Binary Classification Dataset 概述
数据集基本信息
- 许可证:CC BY 4.0
- 任务类别:时间序列分类
- 相关标签:EEG、癫痫检测、医学、神经科学、CHB-MIT
- 数据规模:1K < n < 10K
数据集描述
这是一个经过预处理和平衡的CHB-MIT头皮脑电图数据库版本,用于二元癫痫分类任务。
关键特征
- 窗口大小:8秒
- 采样率:200 Hz
- 通道数:18个(由原始的23个标准化而来)
- 每个窗口的样本数:1600
- 非癫痫与癫痫窗口比例:2:1
平衡策略
- 仅包含完整的癫痫窗口,即整个8秒窗口都处于癫痫发作期内。
- 癫痫窗口采用50%的重叠采样。
- 非癫痫窗口采用随机采样。
- 每位患者的非癫痫窗口数量是癫痫窗口数量的2倍。
数据格式
数据存储为HDF5文件,结构如下:
/chbXX/ seizure: (n_seizure, 18, 1600) float32 non_seizure: (n_non_seizure, 18, 1600) float32 attrs: n_seizure, n_non_seizure
使用示例
python import h5py import numpy as np from huggingface_hub import hf_hub_download
file_path = hf_hub_download( repo_id="smam/chb-mit-seizure-balanced-8s", filename="chb-mit-seizure-balanced-8s-18ch.h5", repo_type="dataset" )
with h5py.File(file_path, r) as f: print(f.attrs[description]) seizure_data = f[chb01/seizure][:] # (N, 18, 1600) non_seizure_data = f[chb01/non_seizure][:] # (M, 18, 1600)
搜集汇总
数据集介绍
构建方式
在癫痫检测研究领域,数据集的构建策略直接影响模型的泛化能力。该数据集基于CHB-MIT头皮脑电图数据库,通过精密的预处理流程重构而成。原始多通道信号被统一采样至200赫兹,并截取为8秒的时间窗口,每个窗口包含1600个采样点。为确保分类任务的平衡性,仅选取完全处于癫痫发作期内的完整窗口作为正样本,并采用50%重叠策略增强数据密度;对于非发作期窗口,则通过随机采样生成,最终按每位患者2:1的比例配置非发作与发作样本,形成结构化的HDF5存储格式。
特点
本数据集的核心特征体现在其高度的标准化与平衡化设计。所有脑电信号均经过通道数统一处理,将原始23个通道规范为18个标准通道,消除了设备差异带来的噪声。时间维度上,固定8秒窗口与200赫兹采样率保证了时序一致性,每个样本呈现为18×1600的二维矩阵。数据平衡策略尤为突出,通过严格定义完整发作窗口并控制非发作窗口的随机采样,构建了非发作与发作样本比例为2:1的二元分类数据集,既反映了临床真实分布,又缓解了类别不平衡问题。
使用方法
为便于研究者高效利用该数据集,数据以HDF5格式封装,内含按患者编号组织的层次结构。用户可通过Hugging Face Hub直接下载数据文件,并利用h5py库进行读取。每个患者目录下分别存储'seizure'与'non_seizure'两组数据数组,形状均为(样本数,18通道,1600时间点),并附有样本数量的元数据。加载后,用户可立即将三维数组输入深度学习模型,或进一步分割为训练集与测试集,适用于时序分类、癫痫预警等脑电分析任务。
背景与挑战
背景概述
癫痫发作的自动检测是神经科学与医学工程领域长期关注的核心问题,旨在通过分析脑电图信号实现及时预警与诊断辅助。CHB-MIT癫痫检测平衡二分类数据集基于麻省理工学院与波士顿儿童医院联合收集的CHB-MIT头皮脑电图数据库构建,该原始数据库自21世纪初发布以来,已成为癫痫研究的重要基准。本数据集通过标准化预处理与平衡采样,将多通道脑电信号划分为8秒时间窗口,聚焦于从复杂生理噪声中精准识别发作期与非发作期脑电模式,为机器学习模型提供结构化的训练资源,推动了可穿戴医疗设备与实时监测系统的发展。
当前挑战
癫痫检测面临的核心挑战在于脑电图信号的高度非平稳性与个体间差异性,发作模式在不同患者中呈现显著异质性,且易受运动伪影与环境干扰影响,导致模型泛化能力受限。在数据集构建过程中,需克服原始数据中发作事件稀疏性与类别不平衡问题,本数据集采用严格的时间窗口对齐策略与2:1的非发作/发作比例采样,确保窗口完整性并避免信息泄漏,但如何在高维时序数据中提取鲁棒特征、减少误报率,仍是该领域持续探索的难点。
常用场景
经典使用场景
在癫痫发作检测领域,该数据集为基于脑电图(EEG)的自动发作识别提供了标准化的基准。研究者利用其8秒窗口、18通道的标准化格式,构建深度学习模型,如卷积神经网络或循环神经网络,以区分发作期与非发作期脑电信号。这种平衡的二元分类设置,特别适用于训练稳健的分类器,避免因数据不平衡导致的模型偏差,从而在医疗监测场景中实现高精度的实时发作预警。
实际应用
在实际医疗环境中,该数据集支持开发嵌入式或云端癫痫监测系统。例如,可集成于便携式EEG设备中,实现长期居家患者发作事件的自动检测与警报,减少对医护人员的依赖。此外,它有助于优化医院重症监护单元的实时监控方案,提升发作诊断效率,并为个性化治疗策略提供数据驱动的决策支持,最终改善患者生活质量与安全。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作,包括基于时空特征的发作检测模型、跨患者泛化算法以及轻量级边缘计算框架。例如,研究者利用其平衡特性探索了迁移学习在发作预测中的应用,或结合注意力机制提升模型可解释性。这些工作不仅扩展了癫痫检测的技术边界,还促进了多模态数据融合与实时健康监测系统的创新。
以上内容由遇见数据集搜集并总结生成



