KITTI-360

arXiv2022-06-03 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2109.13410v2

下载链接

链接失效反馈

官方服务：

资源简介：

KITTI-360是一个包含丰富输入模式、全面语义实例标注和精确定位的郊区驾驶数据集，旨在促进视觉、图形和机器人学交叉领域的研究。该数据集包含超过15万个图像和10亿个3D点，具有跨2D和3D的一致语义实例标注。

KITTI-360 is a suburban driving dataset with rich input modalities, comprehensive semantic instance annotations and precise positioning, aiming to promote research in the interdisciplinary field of computer vision, computer graphics and robotics. This dataset contains over 150,000 images and 1 billion 3D points, with consistent semantic instance annotations across both 2D and 3D domains.

创建时间：

2021-09-28

搜集汇总

数据集介绍

构建方式

KITTI-360数据集的构建过程体现了多模态数据融合与高效标注的创新理念。该数据集通过搭载鱼眼相机、立体相机及激光扫描仪的移动平台，在郊区场景中采集了超过30万张图像和8万次激光扫描，覆盖73.7公里的行驶距离。为获取连贯的语义实例标注，研究团队开发了基于WebGL的三维标注工具，允许标注者使用立方体和椭球体等简单图元对静态与动态物体进行三维边界标注。通过结合立体匹配与激光点云数据，构建了密集的三维场景表示，并利用非局部多场条件随机场模型，将粗糙的三维标注迁移至二维图像域，实现了超过15万张图像和10亿三维点的跨模态一致语义实例标注。

特点

KITTI-360数据集的核心特点在于其全方位的感知能力与丰富的标注信息。该数据集提供了360度的传感器覆盖，包括鱼眼相机和推扫式激光扫描仪，能够全面捕捉城郊环境的视觉与几何信息。其标注体系兼具二维与三维的一致性，每个物理对象在跨模态和跨时间维度上均拥有唯一的实例标识。数据集中包含37个语义类别，涵盖静态物体与动态物体，并提供了高精度的地理注册相机位姿。此外，KITTI-360建立了多个跨学科任务的基准，如语义场景理解、新颖视角合成和语义SLAM，旨在推动视觉、图形学与机器人学领域的交叉研究。

使用方法

KITTI-360数据集的使用方法围绕其多任务基准展开。研究者可利用其提供的二维语义/实例分割图、三维点云语义标签以及相机位姿数据，进行算法开发与评估。数据集已按批次划分为训练集、验证集和测试集，确保空间无重叠。对于语义场景理解任务，可直接使用标注数据进行模型训练，并在在线评估服务器上进行测试。在新颖视角合成任务中，可利用多视角图像或累积点云作为输入，生成指定视角的RGB图像及语义标签。语义SLAM任务则鼓励结合视觉与激光数据，同时估计位姿并重建语义地图。数据集的工具脚本和标注接口均已公开，便于社区进行数据处理与算法验证。

背景与挑战

背景概述

KITTI-360数据集作为KITTI数据集的重要继任者，由图宾根大学与马克斯·普朗克智能系统研究所的自主视觉团队于2022年正式推出，旨在推动自动驾驶领域在计算机视觉、图形学与机器人学交叉方向的研究。该数据集聚焦于城郊驾驶场景，通过集成多模态传感器系统，包括立体相机、鱼眼相机及激光雷达，采集了超过30万张图像与8万次激光扫描数据，覆盖73.7公里行驶里程。其核心创新在于提供了跨二维与三维空间的密集语义实例标注，通过自研的WebGL标注工具与先进的标签迁移算法，实现了超过150亿三维点云与15万张图像的连贯标注，为场景理解、新型视图合成与语义SLAM等任务设立了基准。KITTI-360不仅延续了KITTI在自动驾驶感知领域的奠基性影响，更通过多学科融合推动了全自动驾驶系统的技术演进。

当前挑战

KITTI-360数据集致力于解决自动驾驶中跨模态场景理解的复杂问题，其核心挑战在于实现二维图像与三维点云之间语义实例标注的一致性。具体而言，领域问题的挑战包括：在动态城郊环境中进行精确的语义分割、实例追踪及场景补全，尤其是在遮挡、光照变化与运动模糊条件下保持鲁棒性；同时，新型视图合成任务需在稀疏输入下生成具有真实感与语义一致性的图像。构建过程中的挑战则体现在：如何高效标注大规模动态与静态对象，传统二维逐像素标注耗时极长，而独立标注二维与三维数据会导致标注冗余与不一致；为此，研究团队开发了基于三维图元的标注流程，并通过条件随机场模型将稀疏三维标注迁移至密集二维像素，但处理动态对象的轨迹平滑性、点云稀疏性及标注歧义性仍需精细算法设计。

常用场景

经典使用场景

在自动驾驶与城市环境感知研究中，KITTI-360数据集被广泛用于多模态场景理解任务。该数据集通过融合立体相机、鱼眼相机及激光雷达数据，提供了丰富的二维与三维语义实例标注，尤其适用于开发与评估跨视觉、图形学与机器人学交叉领域的新型算法。其经典应用场景包括语义分割、实例分割、三维目标检测以及语义同步定位与地图构建（Semantic SLAM），为研究者提供了一个真实且标注一致的大规模城郊驾驶场景基准。

衍生相关工作

基于KITTI-360数据集，研究者已衍生出多项经典工作，涵盖了视觉、图形学与机器人学的交叉领域。在语义场景理解方面，涌现了如PointGroup、VoteNet等三维实例分割与目标检测方法；在新颖视角合成领域，NeRF、FreeViewSynthesis等神经渲染技术被应用于该数据集，推动了真实感场景重建的研究；在语义SLAM方向，ORB-SLAM2与SUMA++等算法借助其标注实现了语义地图构建，为自主导航提供了更丰富的环境表征。

数据集最近研究