LibriBrain

Name: LibriBrain
Creator: 英国牛津大学工程科学系
Published: 2025-10-24 06:44:50
License: 暂无描述

arXiv2025-10-24 更新2025-10-29 收录

下载链接：

https://libribrain.com/

下载链接

链接失效反馈

官方服务：

资源简介：

LibriBrain数据集由牛津大学工程科学系PNPL部门创建，是一个包含52小时单参与者脑磁图(MEG)记录的大型公开数据集。该数据集为非侵入式脑机接口(BCI)研究提供了“通用尺子”，支持语音检测和音素分类等基础解码任务。数据集包含93个会话，总时长为3,139分钟，包含466,230个单词标记和1,511,732个音素标记。LibriBrain数据集旨在推动非侵入式BCI研究的发展，并解决严重瘫痪等医疗问题。

Created by the PNPL group within the Department of Engineering Science, University of Oxford, the LibriBrain dataset is a large-scale public dataset housing 52 hours of single-participant magnetoencephalography (MEG) recordings. It serves as a universal benchmark for non-invasive brain-computer interface (BCI) research, supporting core decoding tasks such as speech detection and phoneme classification. The dataset comprises 93 recording sessions, with a total duration of 3,139 minutes, including 466,230 word tokens and 1,511,732 phoneme tokens. The LibriBrain dataset aims to advance the development of non-invasive BCI research and address medical challenges such as severe paralysis.

提供机构：

英国牛津大学工程科学系

创建时间：

2025-10-24

搜集汇总

数据集介绍

构建方式

LibriBrain数据集作为非侵入式脑机接口研究的重要基准，其构建过程依托于高精度脑磁图技术。研究团队通过306通道MEG设备采集单名受试者长达52小时的听觉叙事数据，采用严格的信号预处理流程包括头部运动校正、麦克斯韦滤波和频带滤波，最终以250Hz采样率生成标准化时序数据。数据标注层面，通过强制对齐与人工校正相结合的方式，精确标记了语音片段、词汇单元及音素边界，形成包含46万词汇令牌的结构化语料库。

特点

该数据集最显著的特征体现在其深度纵向设计上，通过单被试长期追踪提供了前所未有的时间分辨率。数据分布呈现典型的齐夫定律特征，涵盖从高频功能词到低频专有名词的完整词汇频谱，为极端类别不平衡场景下的关键词检测研究创造理想条件。其事件标注体系支持多粒度分析，既能进行全词汇解码，也可针对特定关键词集开展定向检测，同时配套发布的标准化训练验证测试划分确保了实验的可复现性。

使用方法

研究人员可通过官方发布的pnpl库快速加载数据，该工具包提供关键词检测与全词汇解码两种任务接口。针对关键词检测任务，系统支持单关键词或多关键词组合的灵活配置，自动根据关键词时长推导时间窗口参数。实验设计建议采用精确率-召回率曲线下面积作为核心评估指标，辅以每小时误报率等场景化度量。参考模型采用时序卷积架构配合注意力池化机制，通过焦点损失函数应对类别不平衡，所有实验均可在消费级GPU上完成训练与验证。

背景与挑战

背景概述

LibriBrain数据集于2025年由牛津大学工程科学系神经处理实验室团队主导发布，作为非侵入式脑机接口研究领域的重要基准，其核心目标在于推动自然语言处理与神经信号解码的深度融合。该数据集收录了单名受试者超过52小时的脑磁图数据，并同步标注了语音、词汇及音素层级的时序信息，为研究大脑在自然叙事语境下的语言处理机制提供了高精度、长时程的观测窗口。其创新性体现在将大规模个体内数据与标准化评估框架结合，显著加速了语音检测、音素分类等基础任务的进展，并为神经关键词检测等应用导向任务奠定了数据基础。

当前挑战

在领域问题层面，神经关键词检测需克服极端类别不平衡带来的分类偏差，例如目标词汇在连续脑信号中的出现率可低至0.5%，要求模型在保证高召回率的同时严格控制误报率。数据构建过程中，脑磁图信号易受运动伪影与环境电磁干扰，需通过麦克斯韦滤波与频带过滤等预处理手段保障信噪比；此外，词汇与音素标注依赖强制对齐技术与人工校正，其时间精度对齐的误差可能影响事件相关神经响应的提取效果。数据规模的扩展亦面临挑战，单受试者长时程实验的疲劳效应与设备稳定性问题需通过多会话设计予以缓解。

常用场景

经典使用场景

在脑机接口研究领域，LibriBrain数据集作为当前规模最大的单被试脑磁图语料库，其经典应用场景聚焦于神经关键词检测任务。该任务通过分析连续脑磁信号，识别受试者在聆听自然语音时特定关键词的出现时刻，为构建非侵入式语音解码系统提供了标准化评估框架。这种基于事件参照的检测机制，能够有效捕捉大脑对词汇的神经响应模式，为理解语言处理的神经基础开辟了新途径。

实际应用

在医疗辅助技术领域，LibriBrain支撑的神经关键词检测系统展现出重要应用价值。通过识别预设关键词（如“帮助”“疼痛”等），可为严重运动障碍患者构建基础通信通道。该技术进一步扩展至无障碍交互场景，实现基于脑电信号的免提设备控制。随着模型性能提升，这类系统有望成为传统语音交互的有效补充，特别是在噪声环境或言语功能障碍等特殊场景中发挥关键作用。

衍生相关工作

基于LibriBrain的基准框架已催生系列创新研究，包括2025年PNPL竞赛中语音检测与音素分类任务的突破性进展。该数据集推动的标准化评估范式，激发了针对脑到文本解码、跨被试泛化等挑战的新方法探索。相关研究进一步拓展至多模态学习架构，结合自监督预训练技术提升解码效率，为构建更鲁棒的神经信号处理管道奠定了理论基础与实践范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集