MS COCO, PASCAL VOC

Name: MS COCO, PASCAL VOC
Creator: 莫哈美德·本·扎耶德人工智能大学（MBZUAI）
Published: 2025-06-03 01:56:02
License: 暂无描述

arXiv2025-06-03 更新2025-06-05 收录

下载链接：

https://github.com/VILA-Lab/OD3

下载链接

链接失效反馈

官方服务：

资源简介：

OD3是一个新颖的无优化数据蒸馏框架，专门为对象检测任务设计。该框架包括两个阶段：候选选择过程，其中对象实例根据其合适的位置迭代地放置在合成的图像中；候选筛选过程，使用预训练的观察者模型去除低置信度的对象。在MS COCO和PASCAL VOC两个流行的检测数据集上进行了数据合成框架，压缩比率从0.25%到5%不等。与之前仅有的检测数据集蒸馏方法和传统的核心集选择方法相比，OD3在压缩比率为1.0%的情况下，在COCO mAP50上提供了超过14%的优越准确性，建立了新的最先进结果。代码和浓缩数据集可在提供的链接中获取。

OD3 is a novel optimization-free data distillation framework specifically designed for object detection tasks. This framework consists of two stages: the candidate selection process, where object instances are iteratively placed into synthetic images based on their appropriate locations; and the candidate filtering process, which removes low-confidence objects using a pre-trained observer model. The proposed data synthesis framework is validated on two popular object detection datasets, MS COCO and PASCAL VOC, with compression ratios ranging from 0.25% to 5%. Compared with the only existing detection dataset distillation methods and traditional core set selection methods, OD3 achieves over 14% higher accuracy on COCO mAP@50 when the compression ratio is set to 1.0%, establishing new state-of-the-art results. Code and the condensed dataset are available at the provided link.

提供机构：

莫哈美德·本·扎耶德人工智能大学（MBZUAI）

创建时间：

2025-06-03

原始信息汇总

OD³: Optimization-free Dataset Distillation for Object Detection

📌 概述

OD³是一种专为物体检测设计的无优化数据蒸馏框架，通过合成紧凑数据集来减少大规模神经网络的训练资源需求。该方法在MS COCO和PASCAL VOC数据集上实现了0.25%至5%的压缩比，并在COCO mAP50上以1.0%压缩比超越先前最佳方法14%以上。

📊 核心特点

两阶段蒸馏流程：候选选择（基于合适位置迭代放置对象实例）和候选筛选（使用预训练观察模型去除低置信度对象）
高性能表现：在物体检测任务中建立新的SOTA结果
支持数据集：MS COCO和PASCAL VOC

📂 数据集准备

COCO数据集：
- 训练集：http://images.cocodataset.org/zips/train2017.zip
- 验证集：http://images.cocodataset.org/zips/val2017.zip
路径配置：需修改配置文件中的data_root参数指向下载的COCO路径

⚙️ 技术实现

环境要求：
- Python 3.9
- CUDA 11.3
- PyTorch 1.12.1
- OpenMMLab环境
预训练观察模型：
- FasterRCNN-R101：https://download.openmmlab.com/mmdetection/v2.0/faster_rcnn/faster_rcnn_r101_fpn_2x_coco/faster_rcnn_r101_fpn_2x_coco_bbox_mAP-0.398_20200504_210455-1d2dac9c.pth
- RetinaNet-R101：https://download.openmmlab.com/mmdetection/v2.0/retinanet/retinanet_r101_fpn_2x_coco/retinanet_r101_fpn_2x_coco_20200131-5560aee8.pth

🚀 蒸馏执行

bash sh scripts/data_synthesis.sh {output_dir} {original_dir} {IPD} {model (optional)}

参数说明：

output_dir：保存浓缩COCO的目录
original_dir：下载的MS COCO路径
IPD：每数据集图像数/压缩比
model：可选模型参数（如retinanet）

📜 引用

bibtex @article{alkhatib2024od3, title={OD3: Optimization-free Dataset Distillation for Object Detection}, author={Al Khatib, Salwa K. and ElHagry, Ahmed and Shao, Shitong and Shen, Zhiqiang}, journal={arXiv preprint arXiv:2506.01942}, year={2025} }

🔗 相关资源

论文：https://arxiv.org/abs/2506.01942
Hugging Face数据集：https://huggingface.co/datasets/VILA-Lab/OD3

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，MS COCO和PASCAL VOC作为两大经典目标检测数据集，其构建过程体现了严谨的标注流程与多样化的场景覆盖。OD3框架通过两阶段优化无蒸馏方法重构数据集：首先采用基于空间位置的候选选择策略，将原始数据集中的目标实例按几何适宜度迭代放置于合成图像；随后通过预训练观察模型的置信度筛选机制，剔除低质量检测目标，最终形成高度压缩但保持检测性能的合成数据集。

使用方法

该数据集的使用遵循目标检测任务的典型范式，但引入了创新性的知识蒸馏流程。研究者首先通过预训练观察模型对合成数据进行质量验证，随后采用基于皮尔逊相关系数的特征级知识蒸馏(PKD)方法，将观察模型的特征表示迁移至随机初始化的目标检测器。使用时应重点关注三个超参数：目标重叠阈值τ建议设为0.6，置信度筛选阈值η取0.2，而动态上下文扩展系数r需根据目标尺度自适应调整。

背景与挑战

背景概述

MS COCO和PASCAL VOC是计算机视觉领域中两个重要的目标检测数据集。MS COCO由微软团队于2014年创建，包含了超过20万张图像和80个物体类别，其丰富的标注信息包括边界框、分割掩码和关键点等。PASCAL VOC则起源于2005年，作为视觉对象类别的基准测试，包含20个物体类别，在2012年后停止更新但仍被广泛使用。这两个数据集极大地推动了目标检测算法的发展，成为评估模型性能的金标准。

当前挑战

目标检测数据集面临的核心挑战在于处理复杂的场景理解问题，包括多尺度物体检测、遮挡物体识别以及密集物体区分等。在构建过程中，MS COCO和PASCAL VOC遇到了标注一致性和质量控制的难题，特别是对于小物体和模糊物体的精确标注。此外，数据集的规模扩张带来了计算资源消耗和标注成本急剧增加的问题，这促使研究者探索数据集蒸馏等新方法。最新的OD3框架通过优化无关的蒸馏策略，在保持检测精度的同时显著压缩了数据集规模。

常用场景

经典使用场景

MS COCO和PASCAL VOC作为计算机视觉领域的两大基准数据集，在目标检测任务中具有广泛的应用。这些数据集通常用于训练和评估深度学习模型，如Faster R-CNN和RetinaNet。在经典使用场景中，研究人员利用这些数据集进行模型性能的基准测试，比较不同算法在复杂场景下的检测精度和鲁棒性。通过提供丰富的标注信息和多样化的物体类别，这些数据集成为推动目标检测技术进步的重要资源。

解决学术问题

MS COCO和PASCAL VOC数据集解决了目标检测领域中的多个关键学术问题。首先，它们提供了大规模的标注数据，支持复杂场景下的多目标检测研究。其次，这些数据集通过统一的评估标准（如mAP）促进了算法之间的公平比较。此外，数据集的多样性（如不同尺度、遮挡和光照条件下的物体）帮助研究人员开发更具鲁棒性的模型。OD3框架进一步解决了数据集压缩问题，显著降低了训练资源需求，同时保持了模型性能。

实际应用

在实际应用中，MS COCO和PASCAL VOC数据集被广泛用于智能监控、自动驾驶和机器人视觉等领域。例如，自动驾驶系统依赖这些数据集训练的模型来实时检测道路上的行人、车辆和障碍物。智能监控系统则利用这些数据提升多目标跟踪和异常行为检测的准确性。OD3框架通过数据集压缩技术，使得这些应用在资源受限的边缘设备上部署成为可能，进一步拓展了其应用范围。

数据集最近研究