CarlaOccV1

github2026-04-06 更新2026-04-02 收录

下载链接：

https://github.com/fengyi233/carlaocc

下载链接

链接失效反馈

官方服务：

资源简介：

全景占用地面实况 — 100K帧，具有体素级语义和实例标签，分辨率高达0.05米。数据模态 — 6个RGB摄像头（KITTI-360风格支架+2个后视摄像头），带有深度、语义、表面法线图像、语义激光雷达和全景占用。占用一致性 — 通过高质量网格体素化生成的物理一致占用地面实况。场景网格 — 可导出的前景和背景角色网格，每个角色带有语义标签。

Panoptic Occupancy Ground Truth — 100K frames with voxel-level semantic and instance labels, with a voxel resolution up to 0.05 meters. Data Modalities — 6 RGB cameras (KITTI-360 style rig plus 2 rear-facing cameras), accompanied by depth, semantic, and surface normal images, semantic LiDAR, and panoptic occupancy annotations. Occupancy Consistency — Physically consistent occupancy ground truth generated via high-quality grid voxelization. Scene Meshes — Exportable foreground and background actor meshes, each with semantic labels.

创建时间：

2026-03-31

原始信息汇总

数据集概述

基本信息

数据集名称：CarlaOcc
核心描述：一个面向自动驾驶的以实例为中心的全景占据预测基准。
状态：相关论文已被CVPR 2026接收。

数据内容与规模

数据规模：包含10万帧数据。
标注类型：提供体素级别的语义标签和实例标签（全景占据真值）。
空间分辨率：最高达0.05米。
数据模态：
- 6个RGB摄像头（KITTI-360风格设备加2个后视摄像头）数据。
- 深度图像。
- 语义分割图像。
- 表面法线图像。
- 语义激光雷达数据。
- 全景占据数据。
数据一致性：通过高质量网格体素化生成物理一致的占据真值。
场景网格：提供可导出的、带有逐实例语义标签的前景和背景参与者网格。

数据集获取与版本

完整数据集：CarlaOccV1（待发布）。
迷你数据集：CarlaOccV1_mini（已发布）。
获取地址：https://huggingface.co/datasets/fengyi233/CarlaOcc

工具链与处理流程

数据集提供从数据收集到占据真值生成的完整工具链：

数据收集：在CARLA模拟器中运行同步会话，记录多模态传感器数据。
场景导出：从UE5编辑器导出静态场景几何和语义标注，并在Python中进行后处理。
占据生成：通过组合前景和背景体素化，生成密集的全景占据真值。

可视化工具

数据集可视化：提供vis_dataset.py脚本，支持可视化数据集中任意序列和帧的多种模态。
管线可视化：提供可视化场景网格和占据网格的脚本。

依赖环境

CARLA UE5服务器：版本v0.10.0。
Python：3.8及以上版本。
依赖安装：需安装requirements.txt中列出的依赖包以及匹配的CARLA Python wheel文件。

搜集汇总

数据集介绍

构建方式

在自动驾驶领域，高精度的场景理解依赖于大规模且标注精细的数据集。CarlaOcc数据集的构建过程体现了系统性工程思维，其核心流程分为三个严谨的步骤。首先，在CARLA UE5仿真环境中进行同步数据采集，配置包含六台RGB相机、深度传感器及激光雷达的多模态传感器阵列，记录下包含复杂交通动态的序列数据。随后，通过UE5编辑器导出静态场景几何与动态参与者的高质量网格模型，并利用Python脚本进行后处理与重建。最终，通过物理一致的体素化技术，将前景与背景网格融合，生成了分辨率高达0.05米的体素级全景占用真值，确保了三维空间表征的精确性与一致性。

特点

该数据集以其面向实例的全景占用预测任务定位，在自动驾驶感知基准中展现出鲜明特色。其核心优势在于提供了十万帧具备体素级语义与实例标签的稠密三维占用真值，空间分辨率精细至厘米级。数据模态极为丰富，不仅包含多视角RGB图像，还同步提供了深度图、语义分割图、表面法线图以及带有语义信息的激光雷达点云。尤为关键的是，数据集通过高质量的网格体素化流程，保证了占用标签在时间与空间维度上的物理一致性。此外，数据集还支持导出带有逐实例语义标签的前景与背景演员网格，为算法开发与深度分析提供了极大便利。

使用方法

为便于研究者高效利用该数据集，项目提供了完整的工具链与可视化方案。用户可通过Hugging Face平台获取数据，并利用配套的Python脚本进行灵活的数据加载与探索。数据集可视化工具`vis_dataset.py`支持按序列、帧索引及指定模态（如RGB、深度、占用网格等）进行快速查看，既可批量保存结果，也可进行交互式显示。对于算法研发，数据可按标准格式读取，其全景占用标签可直接用于训练端到端的占用预测模型。详细的文档与教程进一步指导用户复现从数据采集到真值生成的完整流水线，确保了研究过程的复现性与可扩展性。

背景与挑战

背景概述

在自动驾驶领域，精确的环境感知是实现安全导航的核心前提。传统方法多依赖二维边界框或语义分割，难以全面捕捉三维空间的几何结构与实例信息。CarlaOcc数据集由研究团队于2026年创建，并发表于CVPR会议，旨在提供一个实例中心的全景占用预测基准。该数据集基于CARLA仿真平台构建，包含十万帧高分辨率体素级标注数据，融合了语义与实例标签，以支持自动驾驶系统对复杂动态场景的深度理解。其创新性在于通过高质量的网格体素化生成物理一致的占用真值，推动了三维环境表征从语义分割向全景占用预测的范式转变，为相关算法提供了坚实的评估基础。

当前挑战

全景占用预测旨在解决自动驾驶中三维场景的细粒度理解问题，其挑战在于如何同时精确预测每个体素的空间占用、语义类别及实例身份，尤其在动态物体密集、遮挡严重的城市环境中。构建CarlaOcc数据集时，研究人员面临多重技术难题：确保大规模仿真数据与真实世界分布的一致性；设计高效流程以生成高分辨率体素标注，同时维持标注的物理准确性；整合多模态传感器数据并处理仿真引擎固有的噪声与伪影。这些挑战要求精密的仿真控制、稳健的网格处理算法以及跨模态数据的严格对齐，以保障数据集的可靠性与实用性。

常用场景

经典使用场景

在自动驾驶领域，对周围环境的精确感知是实现安全导航的核心挑战。CarlaOcc数据集以其高分辨率的体素级全景占用标注，为三维场景理解提供了理想的实验平台。该数据集最经典的使用场景是训练和评估端到端的占用预测模型，这些模型能够从多视角相机图像中推断出动态和静态物体的稠密三维几何与语义信息。通过模拟真实驾驶环境中的复杂交通状况，研究者能够系统性地探索模型在遮挡、光照变化及物体运动等条件下的鲁棒性，从而推动自动驾驶感知技术的边界。

实际应用

该数据集的实际应用场景紧密关联于自动驾驶系统的开发与验证。基于CarlaOcc训练的占用预测模型，能够为车辆的路径规划、碰撞避免和决策制定提供丰富的三维环境表征。在仿真测试中，工程师可以利用这些模型评估系统在极端或罕见场景下的性能，如应对突然出现的行人或被部分遮挡的车辆。此外，生成的高质量占用数据可作为合成训练数据，补充真实世界数据集的稀缺性，加速感知模块的迭代与部署，最终提升自动驾驶汽车在复杂城市环境中的安全性与可靠性。

衍生相关工作

围绕CarlaOcc数据集，已衍生出一系列专注于三维占用预测的经典研究工作。这些工作通常构建于先进的视觉Transformer或卷积神经网络架构之上，旨在提升从多视角图像到体素占用网格的映射效率与精度。部分研究探索了时序信息的融合，以预测动态场景的未来占用状态；另一些则致力于设计更高效的损失函数或评估指标，以更好地对齐预测与物理真值。这些衍生工作共同推动了占用预测这一子领域的快速发展，并促进了与目标检测、语义分割等传统任务的交叉与融合，形成了新的技术范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集