Cam4DOcc

arXiv2023-12-07 更新2024-07-30 收录

下载链接：

https://github.com/haomo-ai/Cam4DOcc

下载链接

链接失效反馈

官方服务：

资源简介：

Cam4DOcc是一个用于自动驾驶应用中仅使用摄像头进行4D占用预测的新基准，评估周围场景在不久的将来的变化。

Cam4DOcc is a novel benchmark for 4D occupancy prediction using only cameras in autonomous driving applications, which evaluates the changes of the surrounding scene in the near future.

创建时间：

2023-11-29

原始信息汇总

Cam4DOcc 数据集概述

基本信息

数据集名称: Cam4DOcc
论文: Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications
会议: CVPR 2024

引用

bibtex @inproceedings{ma2024cvpr, author = {Junyi Ma and Xieyuanli Chen and Jiawei Huang and Jingyi Xu and Zhen Luo and Jintao Xu and Weihao Gu and Rui Ai and Hesheng Wang}, title = {{Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications}}, booktitle = {Proc.~of the IEEE/CVF Conf.~on Computer Vision and Pattern Recognition (CVPR)}, year = 2024 }

安装指南

环境: Python 3.7
依赖: PyTorch, torchvision, mmcv, mmdet, mmsegmentation, mmdet3d, timm, open3d-python, PyMCubes, spconv-cu113, fvcore, setuptools, lyft_dataset_sdk

数据结构

nuScenes 数据集

数据链接: nuScenes V1.0 full dataset
附加数据: nuScenes-Occupancy, nuscenes_occ_infos_train.pkl, nuscenes_occ_infos_val.pkl

Lyft 数据集

数据链接: Lyft dataset

数据集基本信息

类型	信息	参数
训练	23,930 序列	train_capacity
验证	5,119 帧	test_capacity
体素大小	0.2m	voxel_x/y/z
范围	[-51.2m, -51.2m, -5m, 51.2m, 51.2m, 3m]	point_cloud_range
体积大小	[512, 512, 40]	occ_size
类别	2 for V1.1 / 9 for V1.2	num_cls
观察帧	3	time_receptive_field
未来帧	4	n_future_frames
扩展帧	6	n_future_frames_plus

预训练模型

版本	Google Drive	Baidu Cloud	配置文件
V1.1	链接	链接	OCFNet_in_Cam4DOcc_V1.1.py
V1.2	链接	链接	OCFNet_in_Cam4DOcc_V1.2.py

搜集汇总

数据集介绍

构建方式

在自动驾驶领域，对周围环境动态变化的精准感知是实现安全导航的核心挑战。Cam4DOcc基准的构建，立足于整合多个公开数据集，包括nuScenes、nuScenes-Occupancy和Lyft-Level5。其构建流程首先将原始数据分割为连续的时间序列，随后提取通用可移动对象（GMO）和通用静态对象（GSO）的时序语义与实例标注，并将其统一转换至当前时刻的坐标系。通过体素化三维空间，并将标注与体素网格关联，同时滤除可见度不足或仅在将来出现的无效实例。此外，基于恒定速度假设对缺失的中间实例进行插值填充，并创新性地计算了指示体素网格运动的三维向后向心流，最终形成了一种兼顾运动物体与静态背景、支持时空预测任务的新型数据集格式。

特点

Cam4DOcc数据集的核心特点在于其专注于纯视觉的四维占据栅格预测任务，开创性地将时序维度引入占据估计。数据集提供了两种粒度的标注：基于边界框的膨胀GMO标注，以及基于体素级的细粒度GMO与GSO标注，这为模型在不同安全性与精度需求下的评估提供了灵活性。其标注不仅包含占据状态，还创新性地包含了三维向后向心流，为理解物体的运动模式提供了显式监督信号。数据集覆盖大规模城市场景，序列长度经过精心设计，确保了历史观测与未来预测的连贯性，有效支持模型学习环境动态演变的规律。

使用方法

该数据集旨在为纯视觉四维占据预测研究提供统一的训练与评估平台。使用者可依据基准提供的四种预设任务进行模型开发，任务复杂度逐级递增，从预测膨胀GMO到同时预测细粒度GMO、GSO及自由空间。研究过程中，可借鉴基准提供的四种基线方法，包括静态世界假设模型、点云预测体素化方法、2D-3D实例预测方法以及端到端的OCFNet网络。评估时需遵循标准协议，采用交并比（IoU）作为核心指标，分别评估当前时刻占据估计与未来时刻占据预测的精度，并可利用加权IoU综合衡量整个预测时域的性能。数据集与基线实现均已开源，便于复现与比较。

背景与挑战

背景概述

在自动驾驶领域，精准感知并预测周围环境的动态变化是实现安全可靠导航的核心前提。传统基于摄像头的感知方法，如目标检测与语义分割，通常局限于预定义的对象类别，难以应对复杂多变的真实场景。为突破这一局限，学术界逐渐转向占据栅格估计技术，其通过评估空间占据状态而非具体类别，增强了对未知物体的泛化能力。然而，现有占据估计方法多聚焦于当前或历史时刻的三维空间表征，未能沿时间轴预测未来环境状态。鉴于此，上海交通大学与毫末智行等机构的研究团队于2023年联合推出了Cam4DOcc基准数据集，旨在将仅用摄像头的占据估计拓展至时空预测维度，系统评估自动驾驶场景中近期未来的环境演变。该数据集基于nuScenes、nuScenes-Occupancy及Lyft-Level5等公开数据集构建，不仅提供了连续时间序列上的语义与实例标注，还创新性地引入了三维向后向心流以表征栅格运动趋势，为四维占据预测这一新兴研究方向奠定了重要基础。

当前挑战

Cam4DOcc数据集致力于解决自动驾驶中仅用摄像头进行四维占据预测这一前沿问题的核心挑战。首要挑战在于领域问题的复杂性：如何仅依赖连续的多视角图像序列，精准预测未来短时间内大规模动态场景中通用可移动物体与静态物体的三维占据状态及其演变，这要求模型具备强大的时空推理与几何理解能力，远超传统的二维鸟瞰图语义预测或基于激光雷达的占据预测任务。其次，在数据集构建过程中亦面临多重挑战：需从异构的原始数据源中提取并融合时序一致的占据与实例标注；为平衡预测精度与驾驶安全，需审慎设计膨胀标注与细粒度标注两种模式；此外，生成高质量的三维向后向心流以表征物体运动，并建立标准化的多任务评估协议，均对数据工程的严谨性与创新性提出了极高要求。

常用场景

经典使用场景

在自动驾驶感知领域，Cam4DOcc数据集为相机仅依赖的四维占据预测任务提供了基准测试平台。该数据集通过整合nuScenes、nuScenes-Occupancy和Lyft-Level5等公开数据集，构建了包含时序语义标注与三维反向向心流信息的标准化评估体系。其经典应用场景聚焦于利用历史连续相机图像序列，预测未来短时间内动态与静态物体的三维占据状态变化，为自动驾驶系统的环境理解与决策规划提供时空连续的占据表征。

衍生相关工作

围绕Cam4DOcc数据集，衍生出一系列重要的研究工作。基于该基准提出的端到端四维占据预测网络OCFNet，首次实现了纯视觉输入下的时空占据联合预测。同时，数据集催生了多类基线方法的改进与对比，包括静态世界假设模型、点云预测体素化方法、二维-三维实例预测扩展等。这些工作不仅验证了端到端时空网络在占据预测中的优越性，也揭示了膨胀标注与三维流信息对提升预测精度的关键作用，为后续研究提供了可复现的代码基础与评估标准。

数据集最近研究