SSCBench
收藏arXiv2023-09-30 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2306.09001v2
下载链接
链接失效反馈官方服务:
资源简介:
SSCBench是一个大规模的单目3D语义场景补全基准,专注于街道视图。该数据集由纽约大学创建,旨在推动自主系统中的3D场景理解技术。SSCBench整合了多个广泛使用的汽车数据集,如KITTI-360、nuScenes和Waymo,以提供多样化的街道场景。数据集包含约67,000帧,是现有数据集SemanticKITTI的约8倍大小,覆盖了六个城市的多样地理环境。SSCBench不仅关注单目输入的SSC方法,还使用三目和点云输入来比较不同视图和传感器方法的性能。此外,SSCBench统一了不同数据集的语义标签,简化了跨领域泛化测试,并计划持续整合新的汽车数据集和SSC算法,以进一步推动该领域的发展。
SSCBench is a large-scale monocular 3D semantic scene completion benchmark focused on street-view scenarios. Developed by New York University (NYU), this dataset aims to advance 3D scene understanding technologies for autonomous systems. SSCBench integrates multiple widely adopted automotive datasets, including KITTI-360, nuScenes, and Waymo, to provide diverse street-level scenes. It contains approximately 67,000 frames, which is about 8 times the size of the existing SemanticKITTI dataset, and covers diverse geographic environments across six cities. SSCBench not only focuses on SSC methods with monocular inputs, but also utilizes trinocular and point cloud inputs to compare the performance of different view-based and sensor-based approaches. Furthermore, SSCBench unifies the semantic labels across different datasets, simplifying cross-domain generalization testing, and plans to continuously integrate new automotive datasets and SSC algorithms to further advance the development of this field.
提供机构:
纽约大学
创建时间:
2023-06-15
搜集汇总
数据集介绍

构建方式
在自动驾驶领域,三维语义场景补全任务长期受限于高质量数据集的匮乏。SSCBench的构建策略立足于整合多个权威自动驾驶数据集,通过精心设计的流程生成统一格式的基准。其核心方法首先从KITTI-360、nuScenes和Waymo等数据源中提取序列化的激光雷达点云与精确传感器位姿,并利用三维边界框标签同步动态物体的测量,以消除时空轨迹伪影。随后,通过聚合多帧点云构建稠密语义点云,并采用体素化技术将连续空间离散化为256×256×32的规则网格。最终,通过多数投票机制确定每个体素的语义标签,并利用光线追踪排除遮挡与未探测的未知体素,从而确保地面真值的准确性与可靠性。
特点
SSCBench的显著特征体现在其规模、多样性与系统性。该数据集共包含约67,000帧数据,规模达到现有基准SemanticKITTI的7.7倍,覆盖德国、美国及新加坡等多个城市的街景,地理多样性显著。数据格式与社区广泛采用的SemanticKITTI保持兼容,确保了使用的便捷性。更为重要的是,SSCBench统一了不同数据源的语义标签体系,支持跨域泛化实验,为模型鲁棒性评估提供了坚实基础。此外,数据集支持单目、三目及点云多种输入模态,能够系统评估传感器覆盖与模态差异对性能的影响,全面揭示了不同方法在几何补全与语义分割任务上的表现差异。
使用方法
SSCBench为三维语义场景补全研究提供了系统化的评估框架。研究者可利用其分设的训练、验证与测试子集,对基于相机或激光雷达的SSC方法进行独立训练与性能评测。数据集支持以交并比和平均交并比作为核心指标,评估模型在51.2米×51.2米×6.4米前方区域内的几何补全与语义分割精度。通过提供的统一标签,可便捷开展跨域泛化实验,例如将在KITTI-360上训练的模型直接用于Waymo数据测试,以检验模型对新环境的适应能力。同时,数据集中包含的多种传感器配置支持对比研究,有助于深入分析输入密度、视场范围等因素对模型性能的影响,推动更具鲁棒性与泛化能力的算法发展。
背景与挑战
背景概述
SSCBench作为单目三维语义场景补全领域的重要基准,由纽约大学、清华大学、苏黎世联邦理工学院及英伟达等机构的研究团队于2023年联合构建。该数据集旨在解决自动驾驶系统中,仅凭单目RGB图像实现三维场景几何与语义联合补全的核心研究问题。通过整合KITTI-360、nuScenes和Waymo等主流自动驾驶数据集,SSCBench提供了涵盖六座城市、总计约6.7万帧的大规模街景数据,其规模达到经典基准SemanticKITTI的7.7倍。该数据集不仅统一了跨数据集的语义标签体系,还支持单目、三目及点云多模态输入评估,显著推动了三维场景理解技术在复杂真实环境中的泛化能力研究。
当前挑战
在领域问题层面,单目三维语义场景补全需克服从二维图像推断三维几何与语义的固有歧义性,特别是在动态物体处理、远距离小目标识别以及遮挡区域推理等方面存在显著挑战。数据构建过程中,研究团队面临多源数据集融合的复杂性,包括动态物体时空轨迹的精准同步、跨数据集语义标签的统一映射,以及稀疏激光雷达点云到稠密体素表征的可靠转换。此外,为确保标注真实性,需通过射线追踪技术排除未观测体素,并处理不同传感器配置(如32线与64线激光雷达)导致的密度差异对模型性能的影响。
常用场景
经典使用场景
在自动驾驶与三维视觉领域,SSCBench作为大规模单目语义场景补全基准,其经典使用场景聚焦于从单一RGB图像中联合推断完整的三维语义与几何信息。该数据集整合了KITTI-360、nuScenes和Waymo等主流驾驶数据集,提供了涵盖多种城市环境、天气条件与交通场景的街景数据。研究者通过SSCBench能够系统评估模型在可见与遮挡区域的三维重建能力,推动单目感知技术向更全面、鲁棒的方向演进。
实际应用
在实际应用中,SSCBench为自动驾驶系统的环境感知模块提供了关键的训练与评估资源。基于该数据集开发的语义场景补全模型能够实时推断车辆周围的三维占据与语义信息,增强系统在复杂街景中的规划与决策能力。例如,在遮挡区域预测行人或车辆的存在,有助于提升碰撞避免系统的可靠性。此外,SSCBench支持从单目到多目乃至激光雷达的多模态对比,为车载传感器配置与算法部署提供了实证参考。
衍生相关工作
SSCBench的推出催生了一系列围绕单目与多模态三维场景补全的经典研究工作。基于该数据集,学者们对MonoScene、VoxFormer、TPVFormer及OccFormer等相机基方法,以及LMSCNet、SSCNet等激光雷达基方法进行了系统性能评估与对比分析。这些工作深入探讨了输入稀疏性、视野范围与跨域泛化对模型的影响,并衍生出关于动态物体处理、未知体素排除等关键问题的改进方案,持续推动着语义场景补全技术的边界拓展。
以上内容由遇见数据集搜集并总结生成



