OmniHD-Scenes

arXiv2025-09-30 收录

下载链接：

https://github.com/LucasYang567/MetaOcc

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为OmniHD-Scenes，包含了1.5千个序列，这些序列是在多种驾驶场景下，由六个多视角摄像头和4D雷达捕捉的。其中，200个序列被标注，总计11921个关键帧，带有全面的占用地面真实标签，这为评估多模态占用预测提供了可能。此外，该数据集还用于通过半监督学习方法构建了OmniHD-SemiOcc数据集。其规模包括1.5千个序列、200个标注序列以及11921个关键帧。该数据集的任务是进行3D占用预测。

This dataset, named OmniHD-Scenes, contains 1.5 thousand sequences captured by six multi-view cameras and a 4D radar across diverse driving scenarios. 200 of these sequences are annotated, with a total of 11,921 key frames equipped with comprehensive occupancy ground-truth labels, which enables the evaluation of multimodal occupancy prediction. Additionally, this dataset is utilized to construct the OmniHD-SemiOcc dataset via semi-supervised learning methods. Its scale encompasses 1.5 thousand sequences, 200 annotated sequences, and 11,921 key frames. The core task of this dataset is 3D occupancy prediction.

搜集汇总

数据集介绍

构建方式

OmniHD-Scenes的构建始于一套精心设计的传感器套件，集成了128线激光雷达、六路高分辨率摄像头以及六颗4D成像雷达，实现了对车辆周围环境的全方位感知。研究团队通过严格的标定流程，包括激光雷达到自车坐标系、相机内参及外参、4D雷达到自车坐标系以及惯性导航系统的精确标定，确保了多源数据的空间一致性。时间同步方面，采用基于PTP协议的时钟同步方案，以域控制器为主时钟，通过CPLD生成触发脉冲，实现了所有传感器在统一时间域内的高精度同步。数据采集采用双源策略，既在公共道路收集涵盖不同天气、时段与交通流量的复杂场景，也在封闭测试场模拟危险工况。原始数据经格式转换、切片与同步后，最终获得1501段时长约30秒的连续片段，共计超过45万帧同步数据。

特点

该数据集的核心特点在于其前所未有的多模态全向感知能力与丰富的数据标注。作为首个支持多视角设置下4D雷达点云用于多种感知任务的开源数据集，它融合了激光雷达的精确几何、摄像头的高分辨率纹理以及4D雷达独特的径向速度与俯仰信息。数据规模超越多数同类数据集，涵盖复杂的城市交通、恶劣天气（33%雨天）及夜间场景（28%），并包含封闭测试场的极端工况。在标注方面，提出了先进的4D标注流水线，利用时序信息进行半自动3D跟踪框标注与静态场景语义分割，已为200个片段提供了超过51.4万个精确的3D边界框。此外，创新性地设计了稠密占据标签自动生成流程，通过融合关键帧与非关键帧信息，为语义占据预测任务提供了高质量的基准真值。

使用方法

OmniHD-Scenes的使用方法围绕其提供的多模态数据与基准任务展开。研究人员可灵活组合不同传感器模态（如仅用摄像头、仅用4D雷达或两者融合），在统一的BEV或体素空间下探索成本效益最优的感知方案。数据集内置了完整的3D目标检测与3D语义占据预测基准，提供了包括mAP、ODS、mIoU在内的标准化评估指标，以及基于主流算法（如BEVFormer、PointPillars、BEVFusion）的基线模型与结果。用户可直接下载同步后的传感器帧与标注文件，加载预定义的训练/验证集划分，复现基准实验或开发新算法。数据以标准单帧格式存储（二进制点云、JPG图像、TXT位姿），便于与现有深度学习框架集成，适用于多模态融合、时序建模及鲁棒性分析等研究方向。

背景与挑战

背景概述

随着深度学习技术的迅猛发展，自动驾驶领域对高质量、多模态数据集的需求日益迫切。现有数据集如KITTI、nuScenes等虽推动了算法进步，但多受限于传感器分辨率不足、场景覆盖有限及标注维度单一等问题。为应对下一代自动驾驶算法对全方位高保真感知数据的需求，由同济大学、浙江大学及2077AI基金会等机构的研究人员于2024年共同构建了OmniHD-Scenes数据集。该数据集创新性地融合了128线激光雷达、六路高分辨率相机及六路4D成像雷达，实现了对车辆周围环境的无死角感知。其核心研究问题在于探索低成本传感器（如4D雷达与相机组合）在多任务感知中的潜力，并为此提供了超过450K同步帧与51.4万精细3D标注框的庞大数据基础。该数据集不仅填补了4D雷达在多视角、多任务场景下开放数据的空白，更通过引入封闭测试场危险工况数据，为极端条件下的算法鲁棒性研究树立了新标杆。

当前挑战

OmniHD-Scenes数据集在推动自动驾驶技术发展的同时，也面临多重挑战。首先，在领域问题层面，其致力于解决的4D雷达点云稀疏性与噪声问题仍是感知算法的一大瓶颈——相较于激光雷达，4D雷达每帧点云数量仅为2K至4K，且存在大量杂散噪声，导致基于纯雷达的3D检测精度（mAP约24.88%）远低于激光雷达方法（mAP达61.15%）。其次，构建过程中挑战重重：多传感器（六路相机、六路雷达与激光雷达）的时空同步需依赖精密PTP协议与手动校验方能实现亚毫秒级对齐；4D标注流程虽设计为半自动化，但针对200个片段仍需人工校验超过51.4万个3D跟踪框，且需处理雨天水花溅射引起的激光雷达点云伪影等噪声点；此外，封闭测试场中危险场景（如AEB紧急制动）的复现需在安全前提下精细控制参数（如TTC阈值），对数据采集的工程安全性提出了极高要求。

常用场景

经典使用场景

在自动驾驶感知领域，OmniHD-Scenes数据集的核心应用场景聚焦于多模态、全景高分辨率环境感知算法的研发与验证。该数据集整合了128线激光雷达、六路高清相机与六路4D成像雷达，实现了对车辆周遭环境的无死角覆盖，为研究者提供了前所未有的全方位传感器数据。其经典使用方式在于，利用同步采集的多视角图像、稀疏而富含多普勒信息的4D雷达点云以及高密度激光雷达点云，训练和评估诸如3D目标检测、多目标跟踪以及语义占用预测等核心感知任务。通过该数据集，研究人员能够深入探索不同传感器模态间的互补特性，尤其是在成本敏感的传感器配置（如仅使用摄像头与4D雷达）下，构建鲁棒且高效的感知系统。

解决学术问题

OmniHD-Scenes数据集针对当前自动驾驶研究中的数个关键瓶颈提供了解决方案。首先，它填补了现有公开数据集在高分辨率、多视角4D成像雷达数据方面的空白，解决了此前研究因缺乏此类数据而无法充分探索雷达在三维空间感知中潜力的问题。其次，该数据集通过创新的4D标注流水线，提供了包含连续3D跟踪框、静态场景语义分割以及稠密占用标签在内的多层次标注，突破了传统数据集在标注全面性和时空一致性上的局限。这直接推动了学术研究从简单的单帧检测向复杂的时序感知与场景理解演进，为开发能够应对恶劣天气、夜间弱光等极端工况的鲁棒算法奠定了坚实的数据基础，具有里程碑式的意义。

衍生相关工作

OmniHD-Scenes数据集的发布催生了一系列具有影响力的衍生工作。围绕该数据集，研究团队建立了全面的基准测试体系，包括针对3D目标检测和语义占用预测的基线模型与评估指标。例如，基于该数据集，研究者验证了BEVFormer、BEVFusion等经典框架在4D雷达与视觉融合场景下的性能，并揭示了4D雷达在多普勒速度估计方面的独特优势。此外，数据集中创新的4D标注和占用标签生成流水线，启发了后续工作对半自动标注技术和时序信息利用的深入研究。这些衍生工作不仅深化了学术界对多模态感知的理解，也为工业界提供了可复现、可比较的技术参照，有力地推动了整个自动驾驶感知领域的技术迭代与创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集