five

ONCE

收藏
arXiv2023-10-26 更新2024-06-21 收录
下载链接:
https://jiakangyuan.github.io/AD-PT.github.io/
下载链接
链接失效反馈
资源简介:
ONCE数据集是由复旦大学信息科学与技术学院和上海人工智能实验室共同创建的大规模点云数据集,专为自动驾驶领域的预训练任务设计。该数据集包含约100万条数据,涵盖多种场景和天气条件,旨在通过丰富的数据分布学习可泛化的表示。数据集的创建过程中,采用了类别感知的伪标签生成策略和多样性预训练处理器,以增强数据的场景和实例级多样性。此数据集的应用领域主要集中在自动驾驶相关的感知任务,旨在解决自动驾驶系统在不同环境和条件下的泛化能力问题。
提供机构:
复旦大学信息科学与技术学院
创建时间:
2023-06-01
搜集汇总
数据集介绍
main_image_url
构建方式
在自动驾驶感知领域,构建大规模点云数据集是实现通用预训练模型的关键一步。ONCE数据集的构建采用了半监督学习范式,通过整合少量标注数据与海量未标注点云,形成统一的预训练资源。具体而言,研究团队设计了类别感知的伪标签生成器,利用不同基线模型(如PV-RCNN++和CenterPoint)针对车辆、行人及骑行者等类别生成高精度伪标注,并结合MeanTeacher等半监督方法进一步提升标注质量。此外,为增强数据分布的多样性,引入了点云光束重采样与物体尺度重缩放策略,分别从场景级和实例级拓展数据变异性,从而构建出具有广泛分布特征的大规模点云数据集。
特点
ONCE数据集的核心特点在于其规模宏大与分布多样,能够为自动驾驶预训练提供丰富的场景覆盖。该数据集包含约100万帧未标注点云与少量标注数据,采集自多种城市环境、天气条件与交通场景,确保了数据在时空维度上的广泛代表性。通过光束重采样与物体重缩放技术,数据集在点云密度与物体尺寸上呈现出显著差异,有效模拟了不同传感器配置与地理区域的数据特性。这种多样性使得数据集能够支撑模型学习更具泛化能力的特征表示,为后续跨数据集迁移与多任务应用奠定坚实基础。
使用方法
ONCE数据集的使用主要围绕自动驾驶预训练与下游任务微调展开。在预训练阶段,采用半监督学习框架,利用伪标注数据与标注数据联合训练通用骨干网络,并结合未知感知实例学习与一致性损失,以增强模型对潜在前景区域的识别能力。预训练完成后,所得骨干网络参数可直接加载到多种3D检测基线模型(如SECOND、CenterPoint、PV-RCNN++)中,并在Waymo、nuScenes、KITTI等下游数据集上进行微调。该方法实现了预训练与下游任务的解耦,显著提升了模型在跨数据集场景中的检测精度与泛化性能。
背景与挑战
背景概述
ONCE数据集作为自动驾驶领域的大规模点云数据集,由复旦大学和上海人工智能实验室的研究团队于2021年推出,旨在推动自动驾驶场景下的自监督与半监督学习研究。该数据集采集自中国多个城市,涵盖多样化的天气条件、交通状况和时间段,包含约100万帧未标注数据和少量标注数据,其核心研究问题在于如何利用大规模点云数据进行预训练,以获取可迁移的通用表征,从而提升不同下游任务和基准测试的性能。ONCE数据集的构建为自动驾驶感知模型的跨数据集泛化能力提供了重要支撑,推动了领域内从单一数据集预训练向多样化数据预训练的范式转变。
当前挑战
ONCE数据集致力于解决自动驾驶中3D物体检测的领域挑战,即模型在跨数据集、跨传感器设置下的泛化能力不足问题。具体而言,数据构建过程中面临两大挑战:一是数据多样性的增强,需通过点云光束重采样和物体尺寸重缩放策略,以模拟不同激光雷达配置和地理区域的数据分布差异;二是高质量伪标签的生成,需结合类别感知的伪标注方法和半监督学习技术,在保证标注准确性的同时处理大规模未标注数据。这些挑战要求数据构建既要覆盖丰富的场景与实例级分布,又要克服不同数据集间的语义差异,以实现预训练模型的有效知识迁移。
常用场景
经典使用场景
在自动驾驶感知领域,ONCE数据集凭借其大规模、多样化的点云数据,常被用于构建统一的预训练模型。该数据集通过融合少量标注数据与海量未标注数据,支持半监督学习范式,使得模型能够在多样化的场景和天气条件下学习通用表征。其经典应用场景包括为多种下游基准数据集(如Waymo、nuScenes和KITTI)提供预训练权重,从而提升三维物体检测模型在跨数据集场景下的泛化性能。
实际应用
在实际应用中,ONCE数据集为自动驾驶系统的三维感知模块提供了强大的预训练支持。基于该数据集训练的模型可直接部署于多种主流检测架构(如PV-RCNN++、SECOND、CenterPoint),显著提升车辆、行人及骑行者等关键目标的检测精度。此外,其数据多样性增强策略(如光束重采样与物体重缩放)有助于模型适应不同激光雷达配置和物体尺寸分布,增强了自动驾驶车辆在复杂真实环境中的鲁棒性与安全性。
衍生相关工作
ONCE数据集的推出催生了一系列围绕大规模点云预训练的研究工作。例如,AD-PT范式利用该数据集实现了跨数据集的知识迁移,启发了后续如多样性增强预训练、未知实例感知学习等方法的探索。相关研究还扩展到多传感器融合预训练、开放集目标检测等领域,推动了自动驾驶感知模型从特定数据集依赖向通用表征学习的范式转变。这些工作共同构成了基于大规模点云预训练的技术生态,持续拓展着自动驾驶感知的边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作