Spiking Transformer Evaluation Platform (STEP)

Name: Spiking Transformer Evaluation Platform (STEP)
Creator: 中国科学院自动化研究所脑认知实验室
Published: 2025-05-16 19:50:14
License: 暂无描述

arXiv2025-05-16 更新2025-05-20 收录

下载链接：

https://github.com/Fancyssc/STEP

下载链接

链接失效反馈

官方服务：

资源简介：

STEP是一个统一的基准框架，用于评估Spiking Transformers，支持广泛的任务，包括分类、分割和检测，适用于静态、基于事件和序列数据集。它提供了模块化支持，包括脉冲神经元、输入编码、代理梯度和多个后端。通过STEP，我们重现和评估了几个代表性的模型，并对注意力设计、神经元类型、编码方案和时序建模能力进行了系统性的消融研究。我们提出了一个统一的能量估计分析模型，考虑了脉冲稀疏性、位宽和内存访问，并表明量化的ANNs可能提供可比或更好的能量效率。我们的结果表明，当前的Spiking Transformers严重依赖于卷积前端，缺乏强大的时序建模，这突出了对脉冲本机架构创新的需求。

STEP is a unified benchmark framework for evaluating Spiking Transformers, which supports a wide range of tasks including classification, segmentation, and detection, and is applicable to static, event-based, and sequential datasets. It offers modular support covering spiking neurons, input encoding, surrogate gradients, and multiple backends. Using STEP, we reproduced and evaluated several representative models, and conducted systematic ablation studies on attention design, neuron types, encoding schemes, and temporal modeling capabilities. We propose a unified energy estimation analytical model that accounts for spiking sparsity, bit width, and memory access, and demonstrates that quantized ANNs can achieve comparable or better energy efficiency. Our results show that current Spiking Transformers heavily rely on convolutional frontends and lack robust temporal modeling, which highlights the need for spiking-native architectural innovations.

提供机构：

中国科学院自动化研究所脑认知实验室

创建时间：

2025-05-16

搜集汇总

数据集介绍

构建方式

STEP数据集的构建基于模块化设计原则，整合了多种尖峰神经元模型、输入编码方案和自注意力机制，以支持分类、分割和检测等多种视觉任务。该数据集通过统一的训练流程和评估协议，确保不同模型和任务之间的公平比较。具体而言，STEP采用了多后端支持（如SpikingJelly、BrainCog等），并兼容静态、事件驱动和时序数据集，从而为尖峰Transformer的研究提供了一个标准化平台。

特点

STEP数据集的特点在于其高度模块化和灵活性，支持多种尖峰神经元模型（如LIF、PLIF、CLIF等）和输入编码方法（如直接编码、相位编码、率编码等）。此外，该数据集覆盖了从静态图像到动态事件数据的广泛任务，包括ImageNet-1K、CIFAR10-DVS和COCO等基准数据集。其统一的能量评估模型进一步量化了尖峰神经网络与量化ANN之间的性能-能效权衡，为研究提供了全面的分析工具。

使用方法

使用STEP数据集时，研究人员可通过配置文件（.yml）灵活定义模型架构和训练参数，例如选择特定的尖峰神经元类型、注意力模块或编码方案。数据集支持多GPU训练，并提供了分类、分割和检测任务的标准化训练脚本。用户只需加载预训练权重或从头开始训练，即可通过统一的评估流程验证模型性能。此外，STEP还集成了可视化工具（如Grad-CAM++），便于分析模型的时空动态行为。

背景与挑战

背景概述

Spiking Transformer Evaluation Platform (STEP) 是由中国科学院自动化研究所BrainCog实验室于2025年提出的标准化脉冲神经网络评估框架，旨在解决脉冲Transformer领域缺乏统一基准的问题。该平台由Sicheng Shen、Dongcheng Zhao等学者联合开发，通过集成SpikingJelly、BrainCog等主流脉冲神经网络框架，支持图像分类、分割和检测等跨模态任务评估。STEP的创新性体现在其模块化设计上，允许研究者灵活配置脉冲神经元类型（如LIF/PLIF）、输入编码方案（直接编码/相位编码）和注意力机制（SSA/SDSA），为脉冲Transformer在神经形态计算领域的性能比较与架构优化提供了科学基准。

当前挑战

STEP针对脉冲Transformer面临的三大核心挑战：其一，在领域问题层面，脉冲注意力机制存在时空建模能力不足的缺陷，实验表明传统卷积前端贡献了模型90%以上的特征提取能力；其二，在构建过程中需克服多框架兼容性问题，包括SpikingJelly与BrainCog在梯度反传策略、时序模拟精度等方面的实现差异；其三，能量评估体系需重新建模，现有工作忽视内存访问能耗（占脉冲系统总能耗32.6%）和量化ANN的位级稀疏性，导致能效比较失真。平台通过标准化评估协议和统一能量模型（含5类功耗因子）系统化解决上述挑战。

常用场景

经典使用场景

STEP数据集在脉冲神经网络与Transformer架构融合的研究中扮演着关键角色，尤其在静态图像分类、事件驱动的动态数据处理以及序列任务中展现出卓越的适用性。通过集成多种编码方案（如直接编码、相位编码和TTFS编码）和脉冲神经元模型（如LIF、PLIF），该数据集为研究者提供了一个标准化的评估平台，用于比较不同Spiking Transformer模型在CIFAR-10、ImageNet-1K等经典视觉任务上的性能。

衍生相关工作

STEP催生了多个标志性研究成果，包括提出混合专家机制的Spikformer+SEMM、采用分层金字塔的QKFormer等。其能量分析模型启发了Quantized Spike-Driven Transformer等低比特量化研究，而时序建模短板则推动了Spiking SSM等新型架构的发展。基于该平台的开源生态已衍生出20余种改进模型，其中Meta-SpikeFormer通过元学习将检测性能提升至ANN水平的80%。

数据集最近研究