OccSTeP
收藏arXiv2025-12-18 更新2025-12-19 收录
下载链接:
https://github.com/FaterYU/OccSTeP
下载链接
链接失效反馈官方服务:
资源简介:
OccSTeP是由湖南大学和苏黎世联邦理工学院联合创建的4D占据时空持久性基准数据集,旨在评估自动驾驶系统在动态场景中的预测能力。该数据集包含四种具有挑战性的驾驶场景(逆向、不连续、碎片化和还原性),通过体素化3D场景表示整合几何与语义信息,数据来源于模拟真实世界传感器干扰的合成驾驶场景。其创新性地采用无标记化(tokenizer-free)体素表示方法,支持SE(3)等变变换,为反应式预测(未来场景推演)和主动式预测(特定动作下的场景响应)提供评估基准,主要应用于自动驾驶系统的时空感知鲁棒性测试和决策规划算法开发。
OccSTeP is a 4D Occupancy Spatio-Temporal Persistence benchmark dataset jointly developed by Hunan University and ETH Zurich, designed to evaluate the predictive capability of autonomous driving systems in dynamic scenarios. The dataset encompasses four challenging driving scenario types: reversing, discontinuous, fragmented, and reducible scenarios. It integrates geometric and semantic information via a voxelized 3D scene representation, with data sourced from synthetic driving scenarios that simulate real-world sensor disturbances. It innovatively adopts a tokenizer-free voxel representation approach that supports SE(3) equivariant transformations, serving as an evaluation benchmark for both reactive prediction (future scenario extrapolation) and proactive prediction (scene response under specific actions). It is primarily applied to robustness testing of spatio-temporal perception for autonomous driving systems and the development of decision-making and motion planning algorithms.
提供机构:
湖南大学, 苏黎世联邦理工学院
创建时间:
2025-12-18
原始信息汇总
OccSTeP 数据集概述
基本信息
- 数据集名称: OccSTeP (4D Occupancy Spatio-Temporal Persistence Benchmark)
- 核心概念: 4D占用时空持久性,旨在解决自动驾驶中对3D场景的持久理解问题,要求对时间干扰具有鲁棒性并考虑潜在的未来动作。
- 主要任务:
- 反应式预测(Reactive Forecasting): “接下来会发生什么”。
- 前瞻式预测(Proactive Forecasting): “给定一个特定的未来动作,将会发生什么”。
- 基准特点: 包含具有挑战性的场景(例如,错误的语义标签和丢帧)。
相关资源
- 论文地址: https://arxiv.org/abs/2512.15621
- 项目网站: https://insai-lab.github.io/OccSTeP.github.io/
- 代码仓库: https://github.com/FaterYU/OccSTeP
- 转移说明: 本项工作已转移至 InSAI Lab@HNU。
方法与性能
- 提出模型: OccSTeP-WM,一个无分词器的世界模型。
- 模型特点:
- 维护基于密集体素的场景状态。
- 随时间增量融合时空上下文。
- 采用线性复杂度注意力骨干和循环状态空间模块,以捕获长距离空间依赖。
- 通过自运动补偿持续更新场景记忆。
- 支持在线推理,并在历史传感器输入缺失或存在噪声时仍保持鲁棒性能。
- 实验性能: 平均语义mIoU达到23.70(提升+6.56),占用IoU达到35.89(提升+9.26)。
开源状态
数据与代码将会开源。
引用
如需在研究中引用本工作,请使用以下BibTeX条目:
@article{zheng2025occstep, title={OccSTeP: Benchmarking 4D Occupancy Spatio-Temporal Persistence}, author={Zheng, Yu and Hu, Jie and Yang, Kailun and Zhang, Jiaming}, journal={arXiv preprint arXiv:2512.15621}, year={2025} }
致谢
搜集汇总
数据集介绍

构建方式
在自动驾驶领域,对动态场景的持续理解是确保安全决策的核心。OccSTeP数据集的构建旨在系统评估4D占用时空持续性,其设计首次整合了四种具有挑战性的驾驶场景:反向、不连续、片段化和语义消减。该数据集基于Occ3D基准进行扩展,通过引入可控的时空扰动来模拟真实世界中的传感器失效与噪声干扰。构建过程中,历史观测数据被施加了坐标轴反转、随机帧丢弃、多视角缺失及语义标签替换等合成扰动,从而形成一个能够全面检验模型鲁棒性与持续推理能力的评估平台。
特点
OccSTeP数据集的核心特点在于其专注于时空持续性的多维评估框架。它不仅支持传统的反应式预测任务,即基于历史观测推断未来场景演变,还创新性地引入了主动式预测,允许在给定特定未来动作的条件下进行场景推演。数据集涵盖的四种扰动场景分别对应不同的现实驾驶挑战,如交通方向混淆、传感器间歇失效、局部视野遮挡以及语义感知噪声,从而系统化地测试模型在非理想观测条件下的适应性。此外,数据集提供了稠密体素级的几何与语义标注,为细粒度时空一致性分析提供了坚实基础。
使用方法
使用OccSTeP数据集时,研究者可依据其设计的双任务框架开展实验。对于反应式预测,模型接收2秒的历史观测序列,并预测随后3秒的占用状态与自车运动轨迹;对于主动式预测,模型在推理阶段可接受外部规划的未来动作序列,进而生成相应的场景演变。评估指标包括语义平均交并比与占用交并比,以及自车运动的位置与偏航角误差。数据集的代码与基准实现已开源,支持在线增量推理与长时程预测,便于在动态环境中验证世界模型的持续性与鲁棒性。
背景与挑战
背景概述
自动驾驶领域的动态场景理解要求系统不仅具备单帧感知能力,还需融合历史时序信息并预测未来环境演变。由湖南大学与苏黎世联邦理工学院的研究团队于2025年提出的OccSTeP数据集,首次将四维占用时空持续性概念引入该领域,旨在解决反应性预测与主动性预测两大核心问题。该数据集通过构建包含逆向、不连续、片段化及语义消减四种挑战性驾驶场景的基准测试,推动了三维占用预测从静态感知向交互式世界建模的范式转变,为自动驾驶的规划与决策提供了更为鲁棒的理论基础。
当前挑战
OccSTeP数据集所针对的领域挑战在于,传统三维占用模型通常假设传感器输入完整且无噪声,难以在真实驾驶环境中处理帧丢失、信号损坏或语义标签错误等扰动,且缺乏跨时间维度的空间表示一致性机制。在数据集构建过程中,研究团队需模拟多种极端干扰场景,包括沿Y轴反转历史观测以模拟交通方向混淆、随机丢弃帧以模拟间歇性传感器故障、随机丢弃部分视角以模拟传感器遮挡,以及随机交换语义标签以模拟噪声感知,这些操作均需在保持时空逻辑连贯性的前提下,确保基准测试的严谨性与泛化能力。
常用场景
经典使用场景
在自动驾驶领域,动态场景理解要求模型不仅感知当前环境,还需预测未来演变。OccSTeP数据集通过引入四维占用时空持续性概念,为反应性预测和主动性预测任务提供了基准测试平台。其经典使用场景集中于模拟真实驾驶中的挑战性条件,如传感器帧丢失、语义标签错误等,评估模型在逆序、不连续、碎片化和语义缩减等多种干扰下的鲁棒性。该数据集推动了占用预测模型从被动感知向交互式世界建模的演进,成为验证时空一致性与动作感知能力的关键工具。
实际应用
OccSTeP数据集的实际应用主要体现在自动驾驶系统的仿真测试与算法验证中。通过模拟传感器中断、视角缺失或标签噪声等现实扰动,该数据集能够帮助开发团队评估占用预测模型在复杂驾驶环境下的稳定性。例如,在主动预测任务中,模型可根据预设的未来动作(如左转)生成相应的场景占用演变,从而支持路径规划与风险分析。这种能力使得OccSTeP成为提升自动驾驶系统在异常条件下安全性与适应性的重要工具,为实际部署前的鲁棒性测试提供了标准化基准。
衍生相关工作
OccSTeP数据集的提出催生了一系列围绕四维占用时空持续性的研究工作。其核心模型OccSTeP-WM采用无标记化的体素表示与线性复杂度注意力机制,为后续高效世界建模提供了新范式。相关经典工作包括对占用表示与标记化方法的改进,如从离散编码转向连续体素特征以保持几何细节;以及在序列建模中引入状态空间模块,以捕获长程空间依赖并实现增量式时空融合。这些衍生研究进一步推动了自动驾驶领域在占用预测、动作条件推理与抗干扰能力方面的进展,形成了从静态感知到动态交互的完整技术脉络。
以上内容由遇见数据集搜集并总结生成



