multilabel ImageNet-1K annotations

github2026-03-21 更新2026-03-22 收录

下载链接：

https://github.com/jchen175/MultiLabel-ImageNet

下载链接

链接失效反馈

官方服务：

资源简介：

ImageNet图像通常包含多个对象，但基准测试仅提供每个图像的一个标签。我们为完整的ImageNet-1K训练集生成了空间基础的多标签注释，并在ImageNet变体和下游多标签转移上显示出一致的增益。关键贡献包括：自动为约1.28M ImageNet-1K训练图像生成多标签注释（无需人工标注）；标签是区域基础的（每个标签与一个掩码/提议相关联），提高了可解释性；区域对齐训练通过训练与原始标签匹配的提议来减少上下文捷径；在领域内准确性和转移到COCO/VOC的架构中均有所提升。

Images in ImageNet typically contain multiple objects, yet official ImageNet benchmarks only assign a single label per image. We generate spatially grounded multi-label annotations for the full ImageNet-1K training set, and demonstrate consistent performance gains on ImageNet variants and downstream multi-label transfer tasks. Our key contributions include: 1) Automatically generating multi-label annotations for approximately 1.28 million ImageNet-1K training images without any manual labeling; 2) Proposing region-based annotations, where each label is associated with a corresponding mask or proposal, which enhances model interpretability; 3) Reducing contextual shortcuts via region-aligned training, where models are trained on proposals aligned with the original per-image labels; 4) Achieving improved performance both on in-domain accuracy benchmarks and when transferred to COCO/VOC datasets.

创建时间：

2026-03-06

原始信息汇总

MultiLabel-ImageNet 数据集概述

数据集来源

该数据集是论文《Unlocking ImageNet’s Multi-Object Nature: Automated Large-Scale Multilabel Annotation》的官方实现所提供的数据。论文地址为：https://arxiv.org/abs/2603.05729。

核心内容

本工作旨在解决ImageNet图像通常包含多个对象，但其基准仅提供每张图像一个标签的问题。为此，它为完整的ImageNet-1K训练集生成了具有空间基础的多标签标注。

关键贡献

自动化多标签标注：为约128万张ImageNet-1K训练图像生成了多标签标注，整个过程无需人工标注。
区域基础标注：每个标签都与一个掩码/提议区域相关联，提高了可解释性。
区域对齐训练：通过在与原始标签匹配的提议区域上进行训练，减少了上下文捷径。
性能提升：提升了在ImageNet及其变体上的域内准确性，并在迁移到COCO/VOC等多标签下游任务中获得了持续增益。

方法概述

无监督对象发现：使用自监督视觉Transformer（ViT）特征，通过MaskCut生成每张图像的多个对象提议掩码。
与原始标签对齐的区域选择：保留那些得到每个位置逻辑图强有力支持的提议。
轻量级标注器训练：冻结ViT骨干网络，在池化的区域特征上训练一个小型MLP头。
全数据集标注：在所有提议上运行标注器，并将唯一的、高置信度的预测聚合为图像级别的多标签（同时保留掩码）。

主要结果

比较了原始单标签训练、使用本多标签进行微调（Multi-label FT）以及端到端多标签训练（Multi-label E2E）在不同模型架构下的表现。
本多标签监督提升了在ImageNet及其变体上的域内性能，并在迁移到COCO和VOC等多标签下游任务中带来了一致的增益。

数据集内容

code/ 目录：包含参考代码实现。
multilabel/ 目录：包含本工作的多标签ImageNet-1K标注。

引用

如需使用本工作，请引用以下文献： bibtex @article{chen2026multilabel_imagenet, title = {Unlocking ImageNets Multi-Object Nature: Automated Large-Scale Multilabel Annotation}, author = {Chen, Junyu and Harun, Md Yousuf and Kanan, Christopher}, journal = {arXiv preprint arXiv:2603.05729}, year = {2026}, url = {https://arxiv.org/abs/2603.05729} }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，大规模图像数据集的标注质量直接影响模型性能。该数据集通过自动化流程构建，首先利用自监督视觉Transformer提取特征，并应用MaskCut算法生成多个物体提议掩码。随后，通过ReLabel映射筛选与原标注高度对齐的提议区域，以此监督一个轻量级多层感知机分类器的训练。最终，该分类器对全部训练图像的提议进行预测，聚合高置信度的独特类别，形成带有空间掩码的多标签标注，覆盖了约128万张ImageNet-1K训练图像，全程无需人工干预。

特点

该数据集的核心特点在于其区域锚定的多标签标注体系。与传统的单标签ImageNet标注不同，它为每张图像提供了多个物体类别标签，且每个标签均关联到具体的空间掩码，增强了标注的可解释性与空间基础。这种设计有效减少了模型对上下文捷径的依赖，促使模型学习更具判别性的物体特征。此外，标注覆盖了整个ImageNet-1K训练集，规模宏大且一致性强，为多物体识别任务提供了丰富而精确的监督信号。

使用方法

该数据集主要用于提升图像分类与多标签识别模型的性能。研究人员可采用其多标签标注对预训练模型进行微调，或进行端到端的多标签训练。具体使用时，可加载提供的标注文件，将区域提议及其对应的类别标签作为训练目标，融入标准分类损失函数中。该数据集亦支持向下游任务如COCO和PASCAL VOC的多标签迁移学习，通过利用其丰富的物体类别信息，能够显著提升模型在复杂场景中的识别与泛化能力。

背景与挑战

背景概述

ImageNet数据集作为计算机视觉领域的基石，自2009年发布以来，其大规模图像分类任务极大地推动了深度学习模型的发展。然而，其原始标注遵循每张图像单一标签的范式，这与现实世界中图像通常包含多个对象的复杂场景存在显著差距。为弥补这一局限性，研究人员于2026年提出了‘multilabel ImageNet-1K annotations’数据集，该工作由Junyu Chen、Md Yousuf Harun和Christopher Kanan等人完成，核心目标是通过自动化流程解锁ImageNet图像的多对象本质，为训练集生成空间基础的多标签标注。这一创新不仅提升了模型在ImageNet及其变体上的域内性能，还显著增强了向COCO、VOC等多标签下游任务的迁移能力，为视觉识别研究提供了更丰富的监督信号。

当前挑战

该数据集旨在解决图像多标签分类的固有挑战，即如何准确识别并标注单张图像中存在的多个对象类别，避免传统单标签训练所导致的信息丢失与上下文偏见。在构建过程中，研究团队面临诸多技术难题：首先，需在无人工标注的前提下，通过自监督视觉Transformer实现无监督对象发现，以生成高质量的对象提议掩码；其次，必须设计有效的区域选择机制，确保提议与原始标签对齐，从而过滤无关背景噪声；此外，训练轻量级标注器时，需在冻结骨干网络的前提下，仅利用区域特征训练小型MLP头部，以平衡效率与准确性；最后，在全数据集范围内进行标注聚合时，如何避免歧义类别识别与漏检对象，亦是实现可靠多标签注释的关键挑战。

常用场景

经典使用场景

在计算机视觉领域，图像分类任务常面临单标签标注的局限性，而multilabel ImageNet-1K annotations通过提供空间基础的多标签注释，为模型训练引入了更丰富的语义信息。该数据集最经典的使用场景是作为训练数据，支持多标签图像分类模型的开发与评估，尤其在处理包含多个对象的复杂图像时，能够显著提升模型对场景中不同物体的识别能力。研究人员利用这些注释进行微调或端到端训练，以优化模型在ImageNet及其变体上的性能，同时增强模型在跨数据集迁移学习中的泛化能力。

实际应用

在实际应用中，multilabel ImageNet-1K annotations被广泛应用于智能图像分析系统，例如自动驾驶中的场景理解、医疗影像的多病变检测以及电子商务中的产品识别。这些注释帮助模型更准确地识别图像中的多个对象，提高了系统在真实世界复杂环境下的性能。此外，它们还支持内容检索和社交媒体分析等任务，通过提供细粒度的标签信息，增强了自动化处理工具的实用性和效率。

衍生相关工作

该数据集衍生了一系列经典研究工作，包括基于区域对齐训练的策略改进、多标签迁移学习框架的优化，以及结合自监督视觉Transformer的对象发现方法。例如，与ReLabel和ImageNet-Segments等先前工作相比，它推动了更高效的提案过滤和标签分配技术。这些衍生工作不仅扩展了多标签注释在视觉任务中的应用范围，还为后续研究提供了基准，促进了计算机视觉领域在弱监督学习和语义分割方向的创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集