eeg-corpus-manifest

Hugging Face2026-05-14 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/tankalapavankalyan/eeg-corpus-manifest

下载链接

链接失效反馈

官方服务：

资源简介：

EEG Corpus Manifest 是一个针对大型EEG预训练语料库构建的规范化、可查询索引数据集，该语料库由多个开放获取的神经科学数据集汇编而成。该数据集本身仅包含元数据，不包含任何实际的EEG信号数据，每条记录指向源数据集的归档存储URI（如S3、OpenNeuro、PhysioNet AWS Open Data等），访问底层EEG信号需遵循原始数据集的许可协议。数据规模方面，v0.4.1版本覆盖79,418小时的EEG数据，包含186,386个记录文件、43,114名受试者和419个索引数据集，在数据量上超过了REVE和DIVER-1等现有基准。数据集采用星型模式组织，包含5个Parquet表：1) `datasets`表（419行）：记录每个源数据集的信息，包括许可、DOI、范式类别等；2) `recordings`表（186,386行）：事实表，记录每个EEG文件的基本信息，包括受试者、会话、任务、持续时间、采样率、通道数、参考电极、制造商、蒙太奇、BIDS实体和S3 URI等；3) `channels`表（11,530,668行）：记录每个记录的每个通道信息，包括名称、类型、单位和3D坐标（当数据集提供electrodes.tsv时）；4) `subjects`表（43,114行）：记录每个规范化受试者的人口统计学信息，包括年龄、性别、临床状态和利手；5) `shards`表（0行）：占位符表，用于未来索引预训练就绪的数据分片。数据来源广泛，包括：锚定数据集（HBN-EEG、PEERS Memory EEG、TUH-EEG家族）、397个通过OpenNeuro自动获取的数据集，以及Tier 2基准数据集（PhysioNet的Sleep-EDFx、HMC、CAP、CHB-MIT、Siena、MMI、EEGMAT，以及Mumtaz抑郁数据集和TUH的TUAB、TUAR、TUEV等）。这些数据涵盖了多种EEG范式，包括睡眠分期、癫痫检测、运动想象、情绪识别等。该数据集专为大规模EEG预训练和基础模型研究设计，支持通过Hugging Face datasets库、Pandas、DuckDB、Polars等多种工具进行程序化访问和查询。元数据本身采用CC-BY-4.0许可，但用户在使用底层EEG信号时必须遵守原始数据集的许可要求，部分数据集（如TUH家族）需要签署数据使用协议。

EEG Corpus Manifest is a standardized, queryable indexing dataset for large-scale EEG pretraining corpora, compiled from multiple open-access neuroscience datasets. The dataset itself contains only metadata and no actual EEG signal data; each record points to the source datasets archival storage URI (e.g., S3, OpenNeuro, PhysioNet AWS Open Data, etc.). Access to the underlying EEG signals requires compliance with the original datasets licensing agreements. In terms of scale, version v0.4.1 covers 79,418 hours of EEG data, including 186,386 recording files, 43,114 subjects, and 419 indexed datasets, surpassing existing benchmarks such as REVE and DIVER-1 in data volume. The dataset is organized in a star schema with five Parquet tables: 1) `datasets` table (419 rows): records information for each source dataset, including license, DOI, paradigm categories, etc.; 2) `recordings` table (186,386 rows): the fact table, recording basic information for each EEG file, including subject, session, task, duration, sampling rate, channel count, reference electrode, manufacturer, montage, BIDS entities, and S3 URI; 3) `channels` table (11,530,668 rows): records information for each channel per recording, including name, type, unit, and 3D coordinates (when the dataset provides electrodes.tsv); 4) `subjects` table (43,114 rows): records demographic information for each normalized subject, including age, gender, clinical status, and handedness; 5) `shards` table (0 rows): a placeholder table for future indexing of pretraining-ready data shards. Data sources are extensive, including anchor datasets (HBN-EEG, PEERS Memory EEG, TUH-EEG family), 397 datasets automatically acquired via OpenNeuro, and Tier 2 benchmark datasets (PhysioNets Sleep-EDFx, HMC, CAP, CHB-MIT, Siena, MMI, EEGMAT, as well as Mumtaz depression dataset and TUHs TUAB, TUAR, TUEV, etc.). These data cover various EEG paradigms, such as sleep staging, epilepsy detection, motor imagery, and emotion recognition. The dataset is specifically designed for large-scale EEG pretraining and foundational model research, supporting programmatic access and querying through tools like Hugging Face datasets library, Pandas, DuckDB, and Polars. The metadata itself is licensed under CC-BY-4.0, but users must adhere to the original datasets licensing requirements when using the underlying EEG signals, with some datasets (e.g., TUH family) requiring a data use agreement.

创建时间：

2026-05-13

原始信息汇总

EEG Corpus Manifest 数据集详情

数据集概述

EEG Corpus Manifest 是一个面向大规模 EEG 预训练语料库的标准化、可查询索引。该清单仅包含元数据，不包含任何 EEG 信号。每个条目指向源数据集的归档 URI（S3 / OpenNeuro / FCP-INDI / NEDC / PhysioNet AWS Open Data），对底层信号的访问受原始数据集许可证的约束。

版本与规模

当前版本: v0.4.1（2026-05-14）
覆盖范围: 79,418 小时 EEG，共 186,386 条记录，43,114 名被试，419 个已索引数据集

数据集结构

清单采用星型模式，包含 5 个 Parquet 表格：

表格	行数	描述
`datasets`	419	每个源数据集一行。包含许可证、DOI、范式摘要、模态、范式类别
`recordings`	186,386	事实表。每条记录文件一行。包含被试、会话、运行、任务、范式、时长、采样率、通道数、参考、制造商、导联、BIDS 实体、S3 URI
`channels`	11,530,668	每个记录每个通道一行。包含名称、类型、单位、电极状态、3D 坐标
`subjects`	43,114	每个规范被试一行。包含年龄、性别、临床状态、利手
`shards`	0	占位符 — 将索引预训练就绪的 WebDataset / MDS 分片

数据覆盖（v0.4.1）

字段	覆盖率	说明
`duration_s`	95.8%	缺失值来自缺少 BIDS 侧车文件的 .set / .vhdr / .fif 文件
`sampling_rate_hz`	97.3%	EDF/BDF 始终可解析（64 KB 头部读取）
`header_read_status == "ok"`	100%	186,386 条记录零头部解析错误
`channels.x / y / z`	因数据集而异	仅当数据集提供 electrodes.tsv 时填充

语料库组成

锚点数据集（v0.1.0 / v0.2.0）

数据集	格式	通道数	采样率	许可证
HBN-EEG (Healthy Brain Network)	EEGLAB .set	129 (EGI HydroCel)	500 Hz	CC-BY-SA-4.0
PEERS Memory EEG (ds004395)	EDF / BDF	129 (EGI), 137, 144, 272 (BioSemi)	250–2048 Hz	CC0-1.0
TUH-EEG Corpus (TUEG 家族)	EDF	20–41 (临床)	250 / 256 / 400 / 512 / 1000 Hz	TUH DUA
397 个 OpenNeuro 数据集	混合	不等	不等	主要为 CC0-1.0

Tier 2 — 基础模型基准/下游评估

| 数据集 | 来源 | 记录数 | 被试数 | 小时数 | 许可证 | |---|---|---|---:|---:|---:|---| | PhysioNet Sleep-EDFx | PhysioNet | 197 | 197 | 3,849 | ODC-By | | PhysioNet HMC | PhysioNet | 154 | 154 | 1,164 | ODC-By | | PhysioNet CAP | PhysioNet | 108 | 108 | 993 | ODC-By | | PhysioNet CHB-MIT | PhysioNet | 665 | 23 | 962 | ODC-By | | PhysioNet Siena | PhysioNet | 38 | 14 | 130 | ODC-By | | PhysioNet MMI (EEGMMIDB) | PhysioNet | 1,526 | 109 | 49 | ODC-By | | Mumtaz | figshare 4244171 | 180 | 64 | 20 | CC-BY-4.0 | | PhysioNet EEGMAT | PhysioNet | 72 | 36 | 2 | ODC-By | | TUAB — TUH Abnormal | TUH NEDC | 2,993 | 2,329 | 1,141 | TUH DUA | | TUAR — TUH Artifact | TUH NEDC | 310 | 213 | 100 | TUH DUA | | TUEV — TUH Events | TUH NEDC | 518 | 370 | 149 | TUH DUA | | Tier 2 总计 | | 6,761 | 3,617 | 8,558 | |

Tier 2 — 受限/延期的数据集

数据集	来源	延期原因
FACED — 4 类情感	Synapse syn50614194	需要免费 Synapse 账户 + 点击接受服务条款
SEED-V — 5 类情感	bcmi.sjtu.edu.cn	需要通过 BCMI 门户提交 DUA
ISRUC-Sleep I / II / III	sleeptight.isr.uc.pt	大学 WordPress 对 AWS IP 返回 text/html
MOABB 捆绑包	bbci.de / GIN / Wasabi Tokyo	跨区域吞吐量低，需 ap-northeast-1 工作节点

记录表主要字段（核心事实表）

列	类型	说明
`recording_id`	string	基于 archival_uri 的 UUIDv5，跨构建稳定
`dataset_id`	string	外键 → datasets.dataset_id
`subject_id_in_dataset`	string	源数据中的被试标识
`subject_canonical_hash`	string	外键 → subjects.subject_hash
`session_id`, `run_id`, `task`	string	BIDS 风格实体，可空
`archival_uri`	string	S3 路径
`archival_format`	string	edf, bdf, set, vhdr, fif, cnt, gdf
`duration_s`	float64	时长，缺失时为 null
`sampling_rate_hz`	float32	采样率
`header_source`	string	头部提取来源

许可证

清单本身: CC-BY-4.0
底层 EEG 信号由原始数据集许可证管理：

来源家族	信号许可证	访问要求
HBN-EEG	CC-BY-SA-4.0	开放
PEERS ds004395	CC0-1.0	开放
397 个 OpenNeuro 数据集	几乎全为 CC0-1.0	开放
TUH-EEG 家族	TUH DUA	需签署数据使用协议
PhysioNet (MMI, Sleep-EDFx, CHB-MIT, Siena, CAP, EEGMAT, HMC)	ODC-By	开放
Mumtaz (figshare 4244171)	CC-BY-4.0	开放

已知限制（v0.4.1）

MOABB 捆绑包排队等待未来版本发布
四个 OpenNeuro 镜像仍被上游阻止（403 AccessDenied）
十二个 Mumtaz figshare 文件 ID当前返回 63 字节的 404 JSON 载荷
NSRR 儿科睡眠队列 (NCHSDB) 待 DUA 批准
ISRUC Sleep I/II/III 被延期
跨数据集被试去重仅限数据集内
仅 MNE 格式仍报告空头部

版本历史

版本	日期	数据集数	显著新增
v0.1.0	2026-05-13	3	HBN + PEERS + TUH 锚点
v0.2.0	2026-05-13	400	397 个 OpenNeuro 数据集自动摄入
v0.3.0	内部	400	模式清理
v0.4.0	2026-05-14	419	TUAB / TUAR / TUEV + PhysioNet Tier 2 + Mumtaz
v0.4.1	2026-05-14	419	TUH 路径覆盖、BIDS 运行标签、Mumtaz 无效载荷过滤
v0.5.0 (计划)	待定	449+	MOABB 捆绑包和获批的受限/延期队列

引用

bibtex @misc{eeg_corpus_manifest_2026, author = {Pavan Kalyan Tankala}, title = {EEG Corpus Manifest: A unified index over open-access EEG pretraining corpora}, year = {2026}, publisher = {Hugging Face}, howpublished = {url{https://huggingface.co/datasets/tankalapavankalyan/eeg-corpus-manifest}}, }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对多个公开可访问的神经科学数据仓库的元数据进行系统性索引与整合。首先，通过自动化流程从OpenNeuro、PhysioNet、TUH-EEG等来源获取脑电图记录的档案统一资源标识符，而非原始信号本身。随后，采用星型模式设计，将元数据组织为五个Parquet表格，分别涵盖数据集、记录、通道、受试者与分片信息。元数据提取策略针对大规模索引进行了优化：优先解析BIDS侧车文件以获取采样率与通道清单；对于缺失侧车的记录，则通过EDF/BDF格式的字节范围解析快速读取前64KB头部信息；而其他格式则跳过以避免大规模下载，标记为待后续处理。

特点

该数据集的核心特点在于其规模与可查询性。v0.4.1版本覆盖了超过79,000小时的脑电图数据，包含186,386条记录、43,114名受试者及419个索引数据集，远超同类基准如REVE与DIVER-1。元数据字段丰富，包括记录时长、采样率、通道数、电极位置、设备型号及BIDS合规性等，其中95.8%的记录有时长信息，97.3%有采样率数据，且头部解析零错误。此外，数据集以CC-BY-4.0许可发布，不包含原始信号，仅提供指向各源数据集档案的链接，并清晰标注了每类数据的访问协议与许可要求。

使用方法

使用者可通过多种方式高效地查询与加载该数据集。基于Hugging Face的datasets库可直接获取记录表格；利用Pandas或Polars的惰性扫描功能，可对Parquet文件执行远程读取而无需完全下载。高阶用户可借助DuckDB跨五张表格进行联合查询，例如筛选采样率高于250 Hz的记录或统计基准数据集的小时数。所有记录标识符通过UUIDv5生成，确保跨构建版本的稳定性。建议使用者注意过滤标记为“skipped_mne”的记录以确保元数据完整性，并根据需要查阅配套代码仓库以复现或扩展索引过程。

背景与挑战

背景概述

脑电图（EEG）作为神经科学与脑机接口领域的关键测量手段，其海量、异构的数据分布特性长期制约着基础模型的预训练进程。为应对这一困境，Pavan Kalyan Tankala 于2026年主导构建了EEG Corpus Manifest数据集（v0.4.1版本），该系统化的元数据索引覆盖了来自OpenNeuro、PhysioNet及TUH-EEG等公开资源中419个数据集，囊括186,386段记录、43,114名受试者及总计79,418小时的EEG信号，其规模全面超越了同期REVE与DIVER-1等基准语料库。该数据集以星型模式存储于五个Parquet表中，通过稳定的UUIDv5标识符及BIDS标准实体实现跨数据集的可查询关联，为EEG基础模型的统一训练与评估奠定了可扩展的数据基础设施。

当前挑战

该数据集在领域问题与构建过程中面临双重挑战。在领域层面，现有EEG语料库普遍存在规模不足、模态碎片化及元数据标准不统一的问题，导致预训练模型难以在多样化的临床任务（如癫痫检测、睡眠分期与运动想象）上取得鲁棒的泛化能力。在构建层面，数据来源涉及不同的许可协议（如TUH需数据使用协议）、存储格式（.edf、.set、.fif等）及访问限制（部分OpenNeuro数据集返回403错误），迫使作者设计轻量级的头字段解析策略（优先使用BIDS侧车文件通道，对多GB级原始EEG文件则标注为跳过以控制带宽成本）。此外，跨数据集受试者去重（v0.5待解决）及Mumtaz队列中部分无效Figshare文件ID的筛选进一步增加了元数据一致性的维护难度。

常用场景

经典使用场景

脑电图数据作为神经科学与脑机接口领域的重要生物信号，其研究长期受困于数据分散、格式各异及元数据缺失等难题。eeg-corpus-manifest数据集以大规模元数据索引的形式，整合了来自OpenNeuro、PhysioNet、TUH-EEG等多个公开数据库的海量脑电记录，构建了一个包含近20万条录音、4.3万余名受试者的标准化查询索引。该数据集的经典使用场景在于为深度学习预训练提供统一的元数据检索入口，研究者可基于采样率、通道数、任务类型等字段高效筛选目标子集，从而避免重复爬取与格式转换的繁复工作，极大提升了大规模脑电研究的数据准备效率。

衍生相关工作

作为大规模脑电数据索引的开创性工作，eeg-corpus-manifest直接支撑或启发了多个前沿研究方向。REVE（NeurIPS 2025）与DIVER-1（ICLR 2026）等基础模型均使用该索引覆盖的数据进行预训练与评测，其可复现的元数据接口使得不同模型间的性能比较成为可能。此外，该索引的星型模式设计为后续脑电数据湖的构建提供了参考范式，催生了针对通道坐标对齐、跨数据集受试者去重（v0.5计划）以及预训练分片索引等衍生工具的开发。MOABB数据集包的集成与NSRR儿科队列的接入规划，预示着该索引将成为脑电基础模型生态系统的关键枢纽，持续推动社区标准化数据基础设施的建设。

数据集最近研究