CODA

arXiv2025-09-30 收录

下载链接：

https://coda-dataset.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了大约1万个精心挑选的真实世界道路驾驶场景，这些场景中对29个代表性物体类别进行了高质边界框标注，形成了一个新颖的对象级边缘案例数据集。该数据集可与SODA10M结合使用，用于训练和验证，具有区分常见类别和新型类别的处理方式。规模上，该数据集大约包含10,000张图像，其任务专注于物体检测。

This dataset contains approximately 10,000 carefully curated real-world road driving scenarios, where 29 representative object categories are annotated with high-quality bounding boxes, forming a novel object-level edge case dataset. It can be used in conjunction with SODA10M for training and validation, and supports distinguishing between common and novel object categories. Comprising roughly 10,000 images, this dataset focuses on the task of object detection.

搜集汇总

数据集介绍

构建方式

CODA数据集的构建源于对自动驾驶领域中罕见边缘场景的迫切需求。其素材取自KITTI、nuScenes和ONCE三大主流自动驾驶数据集，从逾百万场景中精挑细选出1500幅真实驾驶图像。构建流程分为两阶段：首先采用自主研发的COPG流水线，通过激光雷达点云聚类、语义背景剔除及常见目标抑制，全自动生成潜在边缘案例的候选框；随后由人工对候选框进行校验、修正并标注类别，最终形成涵盖34个细粒度类别、近6000个高质量标注实例的数据集。

使用方法

CODA数据集主要用作评估自动驾驶目标检测器对边缘案例鲁棒性的基准测试平台。使用时，研究者可将预训练于SODA10M、BDD100K或Waymo等标准数据集上的检测器直接部署于CODA进行零样本评估，通过平均召回率（AR）等指标衡量其对未知及罕见目标的感知能力。该数据集亦可支持少样本学习方法的适应性评估，为开发更可靠的开放世界感知系统提供关键性验证工具。

背景与挑战

背景概述

在自动驾驶领域，基于深度学习的物体检测方法虽已在对常见交通参与者（如行人、车辆）的识别上取得显著进展，但面对真实道路场景中罕见或未见过的目标（即边缘案例）时，现有检测器往往表现不佳，这成为制约全自动驾驶系统可靠落地的关键瓶颈。为填补这一评估空白，华为诺亚方舟实验室联合香港科技大学及中山大学的研究团队于2022年提出了CODA数据集。该数据集从KITTI、nuScenes和ONCE三大自动驾驶基准中精选1500张真实驾驶场景图像，涵盖超过30个类别的近6000个物体级边缘案例，旨在系统评估并推动视觉检测器对罕见目标的泛化能力，对推动鲁棒感知系统的研发具有里程碑意义。

当前挑战

CODA数据集所面临的挑战体现在两个层面。其一，所解决的领域问题聚焦于自动驾驶物体检测中的边缘案例识别，即检测器需具备对未见过或罕见目标（如横穿马路的狗、散落的交通锥）的泛化能力，而现有封闭世界检测器在CODA上的平均召回率（mAR）骤降至12.8%以下，开放世界检测器亦难以稳定应对，凸显了鲁棒感知系统距离实用仍相去甚远。其二，数据集构建过程本身充满挑战：边缘案例在真实数据中极为稀疏（仅占0.1%），需设计自动化提案生成管道（COPG）结合手动校验以降低标注成本，同时需应对跨域场景差异、类别长尾分布及复杂天气光照条件带来的标注难度，确保数据质量与代表性。

常用场景

经典使用场景

在自动驾驶领域，CODA数据集的核心用途在于评估和提升视觉目标检测器对道路极端案例的感知能力。该数据集精选了1500个真实驾驶场景，涵盖了超过30种对象类别，其中90%以上的实例为罕见或新颖类别，如动物、散落物等。研究者通常将其作为基准，衡量现有检测器在面对训练分布外对象时的鲁棒性。实验表明，即使是当前最先进的封闭世界检测器，在CODA上的平均召回率也骤降至12.8%以下，凸显了其在推动可靠自动驾驶感知系统发展中的关键价值。

解决学术问题

CODA数据集直面当前自动驾驶目标检测领域的一个根本性学术困境——即模型对未见或罕见对象的泛化能力缺失。传统检测器通常基于固定类别（如行人、车辆）进行训练，难以识别诸如横穿道路的动物或遗落障碍物等极端案例，这严重制约了自动驾驶系统的安全性。CODA通过系统性地收集和标注真实世界中的道路极端案例，为研究者提供了一个标准化的评估平台，从而量化并揭示现有方法在开放世界场景下的脆弱性，激励学界探索更鲁棒的检测范式。

实际应用

在实际应用中，CODA数据集直接服务于自动驾驶汽车感知系统的安全性与可靠性验证。例如，汽车制造商和科技公司可利用CODA测试其车辆在遭遇突发障碍（如跑到公路上的狗、倾倒的垃圾桶或施工设备）时的响应能力。该数据集有助于识别感知系统的盲点，推动算法在真实运行环境中对罕见但危险场景的适应性。此外，CODA还可用于训练和优化车辆预警系统，使其在检测到异常对象时及时触发减速或避让策略，从而降低事故风险。

数据集最近研究