SpikeProphecy benchmark (Steinmetz 2019 + IBL Repeated Site)

Name: SpikeProphecy benchmark (Steinmetz 2019 + IBL Repeated Site)
Creator: 加州大学圣克鲁兹分校·电气与计算机工程系; 加州大学圣克鲁兹分校·基因组学研究所; 加州大学圣克鲁兹分校·计算机科学与工程系; 加州大学圣克鲁兹分校·应用数学系; 加州大学圣克鲁兹分校·生物分子工程系
Published: 2026-05-13 12:45:35
License: 暂无描述

arXiv2026-05-13 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/mysteriousauthor/spikeprophecy-steinmetz

下载链接

链接失效反馈

官方服务：

资源简介：

SpikeProphecy是由加州大学圣克鲁兹分校研究团队创建的大规模自回归神经群体尖峰预测基准，其核心整合了Steinmetz 2019和IBL Repeated Site两个公开的Neuropixels电生理学数据集。该基准包含总计105个记录会话，涵盖约89,800个神经元的活动数据，数据源来自小鼠在视觉辨别任务中的高密度电极探针记录，原始尖峰时间被预处理为50毫秒时间窗的整数计数向量。数据集的创建过程涉及严格的时序分割、标准化预处理流程以及包含14项测试的数据完整性审计套件，以防止信息泄露。该数据集主要应用于神经科学和脑机接口领域，旨在系统评估和比较不同序列架构在因果性、自回归尖峰计数预测任务上的性能，并解决现有评估指标单一、无法揭示时空保真度等细粒度结构的问题。

SpikeProphecy is a large-scale autoregressive neural population spike prediction benchmark developed by a research team at the University of California, Santa Cruz. It integrates two publicly available Neuropixels electrophysiology datasets: Steinmetz 2019 and IBL Repeated Site. This benchmark includes a total of 105 recording sessions, covering activity data from approximately 89,800 neurons. The data are sourced from high-density electrode probe recordings of mice engaged in visual discrimination tasks, with original spike times preprocessed into integer count vectors within 50-millisecond time windows. The dataset creation process involves rigorous temporal segmentation, standardized preprocessing workflows, and a data integrity audit suite containing 14 tests to prevent information leakage. Primarily applied in the fields of neuroscience and brain-computer interfaces (BCIs), this benchmark aims to systematically evaluate and compare the performance of different sequential architectures on causal, autoregressive spike count prediction tasks, and address the limitations of existing single evaluation metrics that fail to reveal fine-grained structures such as spatiotemporal fidelity.

提供机构：

加州大学圣克鲁兹分校·电气与计算机工程系; 加州大学圣克鲁兹分校·基因组学研究所; 加州大学圣克鲁兹分校·计算机科学与工程系; 加州大学圣克鲁兹分校·应用数学系; 加州大学圣克鲁兹分校·生物分子工程系

创建时间：

2026-05-13

原始信息汇总

SpikeProphecy / Steinmetz 2019（处理版）数据集概述

基本信息

数据集名称：SpikeProphecy / Steinmetz 2019 (processed)
许可证：CC-BY-4.0
语言：英语
标签：神经科学、电生理学、神经群体、尖峰预测、基准测试、Neuropixels
大小：1000万至1亿条记录
任务类型：时间序列预测

数据来源与处理

该数据集是对Steinmetz等人（2019）公开数据集的确定性预处理结果，来源于发表在Nature 576:266–273上的论文《Distributed coding of choice, action and engagement across the mouse brain》。原始数据（原始尖峰时间、行为协变量、NWB文件）保留在Figshare平台，本数据集仅分享分箱后的整数计数张量和会话元数据。

预处理流程

读取NWB尖峰时间数据
以Δt = 50毫秒进行分箱，生成整数计数向量（转换为uint8类型）
删除平均发放率低于0.1 Hz的近静默单元
输出每个会话的[n_units, n_bins]张量，以及70/15/15的训练/验证/测试时间分割边界元数据

文件结构

文件	形状	数据类型	说明
`session_NNN.npy`（×39个）	[n_units, n_bins]	uint8	每个会话一个文件。n_units范围228–840；n_bins取决于记录时长（50毫秒箱宽）。计数值截断至255之前存储，所有会话中最大观测值为43，因此实际无截断发生
`metadata.json`	—	—	每个会话的元数据，包含单元数量、箱数、时长、分割边界（训练结束、验证结束）以及每个单元的脑区信息（Allen CCF缩写）。顶层参数包括：m_max=1240，bin_width_ms=50，history_bins=10

数据划分

采用70/15/15的训练/验证/测试时间分割策略，在每个会话内部按时间顺序划分为第一段（训练）、中间段（验证）、最后段（测试）。分割边界以原始箱索引形式编码在metadata.json中，而非预分割数组。该数据集附带了14项自动化泄漏审计套件，验证五种具体泄漏向量：

训练/测试箱重叠
滑动窗口边界穿越
跨会话溢出
使用未来统计数据进行归一化
历史特征泄漏

使用示例

python import numpy as np import json from pathlib import Path from huggingface_hub import snapshot_download

local = snapshot_download(repo_id="mysteriousauthor/spikeprophecy-steinmetz", repo_type="dataset") local = Path(local)

meta = json.loads((local / "metadata.json").read_text()) print(meta["num_sessions"], "sessions, M_max =", meta["m_max"])

会话4（703个单元，论文图1中用作典型中值会话）

counts = np.load(local / "session_004.npy") # [703, 60887], uint8 sb = meta["sessions"][4]["split_boundaries"] train = counts[:, :sb["train_end"]] val = counts[:, sb["train_end"]:sb["val_end"]] test = counts[:, sb["val_end"]:]

引用信息

若使用本处理后的数据集，请同时引用原始Steinmetz论文和SpikeProphecy基准：

原始论文：Steinmetz et al. (2019), Distributed coding of choice, action and engagement across the mouse brain, Nature 576:266–273
基准论文：SpikeProphecy: A Large-Scale Benchmark for Autoregressive Neural Population Forecasting, NeurIPS 2026 Datasets and Benchmarks Track

其他

数据集根目录包含符合Croissant 1.0标准的JSON-LD元数据文件croissant.json
数据集许可证为CC-BY-4.0，与源数据集许可证一致

搜集汇总

数据集介绍

构建方式

SpikeProphecy基准数据集是基于两项公开的Neuropixels高密度电极记录构建的：Steinmetz 2019数据集（39个记录会话，涵盖小鼠视觉皮层、运动皮层、海马体、丘脑和中脑）和IBL重复位点数据集（66个会话，来自多个实验室的标准化探针轨迹）。原始尖峰时间数据以50毫秒的时间窗口进行离散化处理，得到整数计数的尖峰向量。每个记录会话被划分为三个连续的时间段（70%训练、15%验证、15%测试），且严格使用时间顺序划分以避免信息泄露。所有会话均被零填充至最大神经元数量，并附带每样本二进制通道掩码，确保损失函数仅作用于真实通道。整个数据集共包含约89,800个神经元的记录。

使用方法

SpikeProphecy的使用遵循标准化流程。用户可通过HuggingFace加载经预处理的张量数据，使用提供的DataLoader和泊松负对数似然损失函数训练任意自回归模型。评估时通过pip安装的评测工具包，可计算群体率相关系数、空间模式相关系数和余弦相似度指标，并能按脑区和Fano因子进行分层报告。基准测试要求严格自回归（仅使用历史尖峰计数，不包含外部刺激或行为特征）和因果预测（无未来上下文信息）。研究者可参考提供的七种基线架构（包括Mamba、Transformer、LSTM和脉冲神经网络）及YAML复现配置进行模型开发和比较，所有模型共享相同的优化器、学习率调度和训练超参数。

背景与挑战

背景概述

SpikeProphecy基准数据集由加州大学圣克鲁兹分校的John R. Minnick及其合作者于2026年创建，旨在系统评估自回归神经群体放电预测模型的性能。该数据集整合了Steinmetz 2019与IBL Repeated Site两大公开高密度电生理记录资源，涵盖105个Neuropixels记录会话及约89,800个神经元的尖峰活动，是首个针对真实电生理数据中因果、自回归尖峰计数预测的大规模标准化基准。研究团队通过引入群体指标分解策略，将传统聚合皮尔逊相关系数分解为时间保真度、空间模式精度和幅度不变对齐三个独立维度，揭示了被单一标量指标掩盖的脑区可预测层级与神经元内在噪声特性，为闭环脑机接口与数字孪生脑模拟提供了关键评估工具，推动了计算神经科学中预测建模的方法论革新。

当前挑战

SpikeProphecy基准面临的核心挑战在于神经群体预测任务的多维评估难题。首先，传统聚合相关性指标无法区分时间动态捕捉能力与空间神经元身份识别精度，这导致脑区间可预测性差异、亚泊松噪声神经元对指标的人为压低效应等关键结构被掩盖，亟需标准化分解指标揭示建模失效模式。其次，构建过程中需克服高性能电极阵列记录的跨会话异质性，包括神经元数量波动、尖峰事件非平稳性及不同实验室间记录范式的差异，同时设计严格的时间因果拆分与14项数据泄漏审计套件，确保模型评估的统计可靠性与跨架构可比性，最终为低功耗神经形态计算与生物物理混合模型提供验证基准。

常用场景

经典使用场景

SpikeProphecy benchmark最经典的使用场景是作为大规模自回归神经群体脉冲预测的标准化评估框架。该基准整合了Steinmetz 2019与IBL Repeated Site两个公开Neuropixels数据集，涵盖105个记录session、约89,800个神经元，为研究者提供了一个统一的数据预处理、时间分割与评估协议的平台。其核心价值在于通过群体指标分解，将传统的单一皮尔逊相关系数拆解为时间保真度、空间模式精度和幅度不变对齐三个独立维度，从而揭示被聚合标量所掩盖的关键结构，使神经群体预测模型的评价更加精细化和可解释。

解决学术问题

该数据集解决了神经群体预测领域中长期存在的评估方法缺陷问题。传统学术研究过度依赖单标量皮尔逊r作为唯一评价标准，导致无法区分模型在时间动态捕捉、空间神经元身份识别以及群体活动模式对齐等方面的真实表现差异。SpikeProphecy通过引入群体度量分解协议，系统性地揭示了脑区可预测性等级结构——该等级在七个架构基线中一致重现且经ANCOVA校正后仍保持统计显著性，同时发现了次泊松评估下限现象，阐明了线性模型与深度模型在神经预测任务中截然不同的失败模式，为神经信息学提供了更严谨的方法论基础。

实际应用

在实际应用层面，SpikeProphecy基准直接服务于闭环脑机接口系统的开发与优化。在BCI应用中，50至100毫秒的前瞻性预测能够有效补偿感知与处理延迟，提升实时神经控制性能。此外，该基准为构建神经群体数字孪生模拟器提供了关键验证工具，使得在不依赖动物实验的前提下加速BCI算法迭代成为可能。典型的实用场景包括群体速率追踪（如癫痫检测、BCI状态门控）、粗粒度群体向量解码以及单神经元刺激策略评估，这些任务对时间保真度与空间模式精度的需求各有侧重，而分解指标恰好能够暴露传统聚合度量所掩盖的部署相关权衡。

数据集最近研究