L-FAME

Hugging Face2026-05-09 更新2026-05-10 收录

下载链接：

https://huggingface.co/datasets/L-FAME-Dataset-Benchmark/L-FAME

下载链接

链接失效反馈

官方服务：

资源简介：

L-FAME 是一个纵向 64 通道脑电图（EEG）数据集和基准，用于研究专注注意力冥想（FAM）及其神经特征在六周训练期间的变化。数据集包含 74 名健康成年人的基线记录，其中 44 人完成了干预后的随访。研究比较了三种 FAM 技术：Hare Krishna 咒语（HK）、SA-TA-NA-MA 咒语（SA）和呼吸专注（BF）。数据集支持三个基准任务：认知状态解码（休息 vs. 冥想）、精细技术分类（HK/SA/BF）以及跨会话适应。数据以 BIDS-EEG 1.9.0 标准存储，包含原始数据、EEGLAB 预处理数据和机器学习就绪的张量。数据集适用于脑机接口、神经科学和时间序列分类任务。

L-FAME is a longitudinal 64-channel electroencephalography (EEG) dataset and benchmark for studying focused attention meditation (FAM) and its neural signatures during a six-week training period. The dataset includes baseline recordings from 74 healthy adults, with 44 completing post-intervention follow-up. The study compares three FAM techniques: Hare Krishna mantra (HK), SA-TA-NA-MA mantra (SA), and breath focus (BF). The dataset supports three benchmark tasks: cognitive state decoding (rest vs. meditation), fine-grained technique classification (HK/SA/BF), and cross-session adaptation. Data is stored in BIDS-EEG 1.9.0 format, including raw data, EEGLAB preprocessed data, and machine-learning-ready tensors. The dataset is suitable for brain-computer interfaces, neuroscience, and time-series classification tasks.

创建时间：

2026-05-03

原始信息汇总

L-FAME: 纵向专注冥想脑电图数据集与基准

数据集概述

L-FAME（Longitudinal Focused Attention Meditation EEG Dataset and Benchmark）是一个包含64通道脑电图（EEG）数据的纵向数据集，旨在研究专注冥想（FAM）及其神经特征在六周训练期间的变化。数据集包含74名健康成年人的干预前基线记录，其中44人在六周后返回进行干预后随访。系统比较了三种专注冥想技术：哈瑞奎师那咒语（HK）、SA-TA-NA-MA咒语（SA）和呼吸专注（BF）。

该数据集随NeurIPS 2026数据集与基准赛道提交论文发布，定义了三个基准任务：（1）认知状态解码（休息 vs 冥想）、（2）细粒度技术分类（HK/SA/BF）以及（3）跨纵向间隔的跨会话适应。

数据集详情

核心特征

记录设备：64通道头皮脑电图，采样率250 Hz
数据格式：BIDS-EEG 1.9.0标准
会话结构：每名参与者两个会话（干预前和干预后，间隔六周）
任务片段：每个会话包含5个固定片段：
1. restOE（睁眼休息）- 120秒
2. restCE01（闭眼休息，走神代理）- 240秒
3. Medita（主动冥想）- 480秒
4. restCE02（闭眼休息，主动后）- 240秒
5. slMedita（静默/持续冥想）- 480秒
预处理层级：原始BIDS、EEGLAB清洗、机器学习就绪张量、机器学习连续数据

参与者人口统计

组别	专注对象	前测人数	后测人数	女性/男性	年龄（均值±标准差）
呼吸专注（BF）	呼吸	16	9	11/5	22.2 ± 3.9
哈瑞奎师那（HK）	长咒语	31	19	18/13	22.2 ± 4.2
SA-TA-NA-MA（SA）	短咒语	27	16	17/10	21.7 ± 2.7
总计		74	44	46/28	22.0 ± 3.6

参与者流失率40.5%（30/74），经检验为完全随机缺失（MCAR）。

记录设置

放大器：mBrainTrain Smarting Pro X
电极帽：64通道EASYCAP，Ag/AgCl，扩展国际10-10布局
参考电极：FCz | 接地电极：FPz | 阻抗：< 20 kΩ
采样率：250 Hz | 电源频率：60 Hz
电解液：abralyt HiCl凝胶
电极数字化：CapTrak坐标系

存储库结构

层级	路径	格式	大小	用途
原始BIDS	`sub-XX/ses-{premedita,posmedita}/eeg/*.{eeg,vhdr,vmrk,json,tsv}`	BrainVision	~23 GB	自行预处理
EEGLAB清洗	`derivatives/eeglab_preproc/sub-XXX/ses-*/...`	EEGLAB	~15 GB	MATLAB/MNE-Python管线
机器学习分段	`derivatives/ml_preproc_data/sub-XXX/.../*_eeg_preproc.npy`	NumPy float32	~11 GB	基准代码使用的即用张量
机器学习连续	`derivatives/ml_continuous_tensors/sub-XXX/.../*_desc-icacleaned_continuous.npy`	NumPy float32	~11 GB	自定义分段、滑动窗口或自监督预训练

注：原始BIDS根目录下主体ID为2位数字（sub-01…sub-74），所有derivatives/层级下为3位数字（sub-001…sub-074）。

预处理细节

EEGLAB层级：

零相位1 Hz巴特沃斯高通滤波
Zapline-plus 60 Hz线噪声去除
伪影子空间重建（ASR，突发标准差=25，最大坏道=0.2）
共平均重参考（含FCz，65通道）
Infomax ICA → ICLabel（伪影阈值≥0.9）→ 成分去除

机器学习层级：

0.5 Hz FIR高通 + EEGLAB clean_rawdata（空间相关0.9，线噪声4 SD）
球面样条插值坏道
每片段输出为float32格式的（C×T）NumPy数组

机器学习连续层级：

ICA清洗后的完整连续信号流（未分段），保存为*_desc-icacleaned_continuous.npy

基准任务

任务	目标	输入片段	参与者数	评估方法
任务1 - 认知状态解码	休息（`restCE01`）vs 专注冥想（`slMedita`）	仅干预前	74	受试者内（分块/时间顺序）、受试者间5折、留一法
任务2 - 技术分类	从`slMedita`（和/或`Medita`）中区分HK/SA/BF	前测和后测分开	74（前测）/ 44（后测）	受试者间5折
任务3 - 跨会话适应	将预训练的任务1模型应用于干预后数据	干预后	44	零样本和N样本校准

快速开始

数据集提供一键式封装函数 load_benchmark，处理数据下载、分窗、标签分配和交叉验证分割。

安装依赖

bash pip install -U huggingface_hub torch numpy pandas scikit-learn

运行基准任务示例

python from lfame import load_benchmark

任务1 - 认知状态解码

train, val, test = load_benchmark(task_id=1, cv_strategy="inter")

任务2 - 技术分类

train, val, test = load_benchmark(task_id=2, cv_strategy="inter", task2_session="pre")

任务3 - 跨会话适应，30样本校准

train, val, test = load_benchmark(task_id=3, cv_strategy="intra_30_shot", test_subject="12")

交叉验证策略

loso：留一法受试者
inter：5折受试者间
intra-block：20秒分块交替训练/测试
intra-chrono：会话前80%训练，后20%测试
intra-zero：零样本评估
intra_{N}_shot：N样本校准（论文使用N=10和N=30）

默认窗长4秒@250 Hz，重叠率根据交叉验证策略不同（交叉受试者50%，所有intra-*策略87.5%）。

许可协议

本数据集采用CC BY-NC 4.0许可协议。允许出于非商业目的复制、分发、修改和基于此材料创作，但需适当署名。商业使用需获得作者明确书面许可。下载数据集即表示您同意不尝试重新识别任何参与者，并遵守适用的数据保护法规。

引用

bibtex @inproceedings{lfame2026, title = {L-FAME: Longitudinal Focused Attention Meditation EEG Dataset and Benchmark}, author = {<TODO: fill in author list at acceptance>}, booktitle = {Advances in Neural Information Processing Systems (NeurIPS) 39 — Datasets and Benchmarks Track}, year = {2026}, note = {Under review} }

版本历史

v1.0 — 2026年5月 — 初始公开发布：74名受试者干预前队列，44名受试者干预后队列，三个衍生层级，三个基准任务定义。

搜集汇总

数据集介绍

构建方式

L-FAME数据集基于严谨的纵向实验范式构建，聚焦于专注力冥想（FAM）的神经表征研究。研究招募了74名健康成年人，在为期六周的干预前后分别记录64通道头皮脑电信号，其中44名受试者完成了两次完整采集。实验包含三种冥想技术（Hare Krishna曼陀罗、SA-TA-NA-MA曼陀罗及呼吸专注），每位受试者在单次约32分钟的实验中依次完成睁眼静息、闭眼静息、主动冥想、闭眼静息及静默冥想五个任务片段。数据以BIDS-EEG 1.9.0标准格式组织，并提供原始数据、EEGLAB预处理数据及机器学习就绪张量三种层级，覆盖从原始信号到可直接用于基准测试的统一张量。

特点

该数据集具备鲜明的纵向与多范式特色：两次采集间隔六周，可揭示冥想神经特征的演化轨迹；三种冥想技术的头对头比较，为细粒度分类提供了独特条件。预处理流程采用零相位高通滤波、Zapline-plus工频去噪、伪影子空间重建（ASR）及Infomax ICA结合ICLabel的自动成分移除策略，并保留ICA前后两个版本以便灵活使用。基准测试涵盖三个维度：认知状态解码（休息vs.冥想）、技术分类（三种冥想范式）及跨会话适应（评估模型在纵向间隔后的泛化能力），附设多种交叉验证策略（留一法、5折跨受试者、块内与时间顺序分割等），为脑电时间序列分类研究提供了标准化评估框架。

使用方法

数据集提供了便捷的一站式加载接口`load_benchmark`，通过指定任务编号与交叉验证策略即可自动下载所需张量、完成滑动窗口切分与标签分配，并返回PyTorch DataLoader对象。用户仅需安装`huggingface_hub`等基础依赖，调用`hf_hub_download`获取API脚本后即可开展实验。对于不同预处理层级或自定义窗口需求，可直接使用`snapshot_download`下载原始文件，如ML预处理数据以NumPy格式存储为通道×时间点的浮点张量。数据加载时在运行时执行逐通道z-score归一化，默认窗口长度4秒、重叠率50%（跨受试者任务）或87.5%（受试者内任务），且支持开发模式下仅下载少量受试者数据进行管道调试。

背景与挑战

背景概述

脑电图（EEG）作为非侵入性神经成像技术，在脑机接口与认知神经科学领域具有广泛的应用前景，但现有数据集多聚焦于单一时间点的静态测量，难以刻画长期训练引发的神经可塑性变化。L-FAME数据集于2026年由匿名研究团队创建，作为NeurIPS 2026数据集与基准测试轨道的工作，旨在系统探讨专注力冥想（FAM）训练过程中神经标志的纵向演变。该数据集记录了74名健康成年人在六周训练前后的64通道EEG信号，并对比了三种经典冥想技巧：哈瑞·奎师那曼陀罗、SA-TA-NA-MA曼陀罗与呼吸专注。通过提供从原始BIDS格式到机器学习就绪张量的多层级预处理数据，L-FAME定义了认知状态解码、技巧细粒度分类与跨会话迁移三个基准任务，成为连接冥想神经科学与可重复计算研究的标志性资源。

当前挑战

该数据集所解决的领域问题聚焦于冥想神经机制的动态建模，其核心挑战包括：1) 纵向跨度带来的个体内变异性，40.5%的受试者流失率（缺失完全随机）与六周间隔引发的神经表征漂移，要求算法具备跨会话自适应能力；2) 不同冥想技巧间的频谱特征高度相似，需从高维时空EEG中提取可区分模式并克服低信噪比干扰；3) 构建过程中面临实验范式标准化难题，需协调三种曼陀罗练习的持续时间、发声方式与动作伪迹，同时精确标记静息与冥想状态。此外，多层级预处理管线（ICA去噪、ASR校正）的复现性要求，以及10~11GB张量数据的高效存储与加载，均为工程实现与科学严谨性间的平衡提出了挑战。

常用场景

经典使用场景

L-FAME数据集作为首个纵向聚焦注意冥想脑电图基准，为神经科学领域提供了研究冥想神经标志物动态演化的核心资源。其经典使用场景涵盖三个标准任务：认知状态解码（静息与冥想状态的二分类）、精细技术分类（三种冥想范式的区分）以及跨会话适应（纵向干预前后的泛化能力评估）。研究者通过该数据集可系统探究冥想训练如何重塑大脑活动模式，尤其是静息态与主动冥想态之间的神经差异，以及不同冥想技术对应的独特神经特征。数据预处理涵盖原始BIDS格式、EEGLAB清洗版本和机器学习就绪的张量形式，支持从信号预处理到深度学习的全链条研究流程。

解决学术问题

该数据集解决了神经科学中多个长期存在的学术难题。首先是纵向冥想研究中缺乏标准化基准的问题，L-FAME提供了74名健康成年人六周训练前后的64通道脑电数据，使研究者可以量化冥想训练引起的大脑可塑性变化。其次，它填补了不同冥想技术神经差异比较的空白，哈瑞奎师那曼陀罗、SA-TA-NA-MA曼陀罗与专注呼吸三种范式的系统对比，揭示了不同冥想策略的神经编码机制。再者，数据集的跨会话适应任务直接指向脑机接口中模型泛化这一核心挑战，为开发跨时间迁移学习算法提供了真实纵向基准。此外，40.5%的受试者脱落率经统计验证为完全随机缺失，为纵向研究中样本衰减数据的处理提供了宝贵参考。

衍生相关工作

L-FAME数据集催生了多个方向的经典工作。在神经编码研究层面，基于其精细技术分类任务的工作揭示了语音曼陀罗与默念曼陀罗在颞叶和额叶的区分性激活模式。在迁移学习领域，跨会话适应任务激发了多种少样本校准策略和领域自适应算法的发展，如基于对抗训练的纵向漂移补偿方法和原型网络在小样本脑电分类中的应用。在深度学习架构创新方面，该数据集促使研究者将EEGNet、ShallowConvNet等模型扩展至纵向场景，并推动了时序卷积网络与注意力机制在处理跨期信号分布偏移中的融合。此外，数据集的公开基准代码和标准化预处理流程，为后续冥想脑电研究提供了可复现的基线比较框架。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集