SODA10M

Name: SODA10M
Creator: 华为诺亚方舟实验室
Published: 2021-11-08 11:42:16
License: 暂无描述

arXiv2021-11-08 更新2024-06-21 收录

下载链接：

https://soda-2d.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

SODA10M是一个大规模的2D自/半监督对象检测数据集，专为自动驾驶设计。该数据集包含1000万张未标记图像和2万张标记图像，覆盖了32个城市、不同天气条件、时间段和地点场景。数据集的创建旨在通过利用大规模未标记数据和少量标记数据，学习鲁棒的对象检测模型。SODA10M的多样性和规模确保了其作为预训练数据集的泛化能力，适用于不同的自监督学习方法，旨在解决自动驾驶系统中的视觉感知问题。

SODA10M is a large-scale 2D self-supervised and semi-supervised object detection dataset specifically designed for autonomous driving. This dataset consists of 10 million unlabeled images and 20,000 labeled images, covering 32 cities, diverse weather conditions, time periods and various location scenarios. The dataset is developed to learn robust object detection models by leveraging large-scale unlabeled data and a small amount of labeled data. The diversity and scale of SODA10M ensure its generalization capability as a pre-training dataset, which is applicable to multiple self-supervised learning methods, and aims to address visual perception issues in autonomous driving systems.

提供机构：

华为诺亚方舟实验室

创建时间：

2021-06-21

搜集汇总

数据集介绍

构建方式

在自动驾驶视觉感知领域，构建大规模且多样化的数据集对于推动自监督与半监督学习至关重要。SODA10M数据集的构建采用了众包采集策略，通过分布在中国32个城市的数万名出租车司机，使用移动设备或行车记录仪以每10秒一帧的间隔采集原始道路图像。为确保数据质量，实施了采集前与采集后的双重质量控制流程，包括摄像头位置检查、成像质量评估以及人工核查。从初始采集的1亿张图像中，依据天气、时段与地理场景的均匀分布，采样出1000万张未标注图像构成核心未标注集。标注方面，采用基于Faster RCNN的多任务检测模型进行预标注，随后由经过培训的标注员进行精细化校正与审核，最终在2万张图像上完成了涵盖车辆、行人、自行车等6类目标的紧密包围框标注。

特点

SODA10M数据集在规模与多样性方面展现出显著优势。其包含1000万张未标注图像与2万张精细标注图像，总驾驶时长超过27833小时，覆盖32个城市的不同天气条件、光照时段与道路场景，构成了当前规模最大、场景最丰富的2D自动驾驶数据集之一。数据集的未标注集在天气、时段与地理分布上具有高度多样性，包含了晴朗、阴天、雨天乃至雪天等多种气象条件，以及白天、夜晚与黄昏黎明等不同光照时段，同时涵盖城市街道、高速公路、乡村道路与居民区等多种驾驶环境。这种广泛的覆盖确保了数据集在作为预训练或自训练资源时，能够为模型提供强大的泛化能力与场景适应力。

使用方法

SODA10M数据集主要用于支持自动驾驶场景下的自监督与半监督学习研究。作为预训练数据集，研究者可利用其1000万张未标注图像，通过对比学习等自监督方法学习通用视觉表示，随后在下游任务如目标检测、语义分割或实例分割上进行微调。数据集中包含的时序信息也使其适用于视频自监督方法的评估。在半监督学习框架下，可利用少量标注数据与大量未标注数据，结合伪标签生成或一致性正则化等方法，训练更鲁棒的检测模型。数据集的标注部分已划分为训练、验证与测试集，并遵循COCO格式，便于集成至主流检测框架进行实验评估与基准测试。

背景与挑战

背景概述

自动驾驶技术的演进对视觉感知模型的鲁棒性提出了更高要求，传统依赖全标注数据的训练范式难以应对复杂多变的真实驾驶场景。为应对这一挑战，华为诺亚方舟实验室联合中山大学等机构于2021年发布了SODA10M数据集，旨在推动自监督与半监督学习在自动驾驶领域的标准化评估。该数据集包含1000万无标注图像与2万精细标注图像，覆盖32个城市、27833小时驾驶数据，囊括昼夜、雨雪等多种天气与场景条件。作为当前规模最大、多样性最丰富的2D自动驾驶数据集，SODA10M通过提供海量未标注数据与高质量标注样本，为构建适应现实世界动态演进的自动驾驶系统奠定了关键数据基础，并成功支撑了ICCV2021 SSLAD国际赛事。

当前挑战

SODA10M致力于解决自动驾驶领域在有限标注条件下实现鲁棒目标检测的核心挑战。其构建过程面临多重困难：在数据采集层面，需通过众包模式协调数万出租车司机，在保证图像质量与隐私安全的前提下，实现跨地域、多气候条件下的规模化数据收集；在标注环节，针对海量未标注数据，需设计高效的三阶段标注流程（预标注-人工校正-专家审核），以平衡标注效率与质量。此外，数据集需处理复杂驾驶场景中多目标共存、小目标检测及极端光照条件下的识别难题，同时探索适用于驾驶场景的自监督对比损失函数设计，以克服传统图像级或像素级对比学习方法在复杂多实例环境中的适应性不足。

常用场景

经典使用场景

在自动驾驶视觉感知领域，SODA10M数据集作为大规模自监督与半监督学习的基准平台，其经典应用场景集中于预训练模型的构建与评估。该数据集通过提供千万级无标注图像与两万张精细标注图像，覆盖了32个城市、多种天气条件与时段，为研究者探索数据驱动下的鲁棒性检测模型提供了丰富素材。典型使用方式包括利用无标注数据执行对比学习或生成伪标签，随后在下游任务如目标检测、语义分割中进行微调，以验证模型在复杂驾驶环境中的泛化能力。

衍生相关工作

SODA10M数据集的发布催生了多项经典研究工作，尤其在自监督与半监督学习领域。基于该数据集，研究者对比了MoCo、SimCLR、DenseCL等对比学习方法在驾驶场景中的性能，揭示了像素级对比损失在复杂环境中的局限性，进而激发了针对多实例一致性设计的新型损失函数探索。同时，STAC、Unbiased Teacher等半监督方法在数据集上展现了显著提升，推动了领域自适应、伪标签优化等方向的进展。这些工作不仅深化了对驾驶数据表征学习的理解，也为后续大规模预训练模型的演进提供了实证基础。

数据集最近研究