five

multilabel ImageNet-1K annotations

收藏
github2026-03-21 更新2026-03-22 收录
下载链接:
https://github.com/jchen175/MultiLabel-ImageNet
下载链接
链接失效反馈
官方服务:
资源简介:
ImageNet图像通常包含多个对象,但基准测试仅提供每个图像的一个标签。我们为完整的ImageNet-1K训练集生成了空间基础的多标签注释,并在ImageNet变体和下游多标签转移上显示出一致的增益。关键贡献包括:自动为约1.28M ImageNet-1K训练图像生成多标签注释(无需人工标注);标签是区域基础的(每个标签与一个掩码/提议相关联),提高了可解释性;区域对齐训练通过训练与原始标签匹配的提议来减少上下文捷径;在领域内准确性和转移到COCO/VOC的架构中均有所提升。

Images in ImageNet typically contain multiple objects, yet official ImageNet benchmarks only assign a single label per image. We generate spatially grounded multi-label annotations for the full ImageNet-1K training set, and demonstrate consistent performance gains on ImageNet variants and downstream multi-label transfer tasks. Our key contributions include: 1) Automatically generating multi-label annotations for approximately 1.28 million ImageNet-1K training images without any manual labeling; 2) Proposing region-based annotations, where each label is associated with a corresponding mask or proposal, which enhances model interpretability; 3) Reducing contextual shortcuts via region-aligned training, where models are trained on proposals aligned with the original per-image labels; 4) Achieving improved performance both on in-domain accuracy benchmarks and when transferred to COCO/VOC datasets.
创建时间:
2026-03-06
原始信息汇总

MultiLabel-ImageNet 数据集概述

数据集来源

该数据集是论文《Unlocking ImageNet’s Multi-Object Nature: Automated Large-Scale Multilabel Annotation》的官方实现所提供的数据。论文地址为:https://arxiv.org/abs/2603.05729。

核心内容

本工作旨在解决ImageNet图像通常包含多个对象,但其基准仅提供每张图像一个标签的问题。为此,它为完整的ImageNet-1K训练集生成了具有空间基础的多标签标注。

关键贡献

  • 自动化多标签标注:为约128万张ImageNet-1K训练图像生成了多标签标注,整个过程无需人工标注。
  • 区域基础标注:每个标签都与一个掩码/提议区域相关联,提高了可解释性。
  • 区域对齐训练:通过在与原始标签匹配的提议区域上进行训练,减少了上下文捷径。
  • 性能提升:提升了在ImageNet及其变体上的域内准确性,并在迁移到COCO/VOC等多标签下游任务中获得了持续增益。

方法概述

  1. 无监督对象发现:使用自监督视觉Transformer(ViT)特征,通过MaskCut生成每张图像的多个对象提议掩码。
  2. 与原始标签对齐的区域选择:保留那些得到每个位置逻辑图强有力支持的提议。
  3. 轻量级标注器训练:冻结ViT骨干网络,在池化的区域特征上训练一个小型MLP头。
  4. 全数据集标注:在所有提议上运行标注器,并将唯一的、高置信度的预测聚合为图像级别的多标签(同时保留掩码)。

主要结果

  • 比较了原始单标签训练、使用本多标签进行微调(Multi-label FT)以及端到端多标签训练(Multi-label E2E)在不同模型架构下的表现。
  • 本多标签监督提升了在ImageNet及其变体上的域内性能,并在迁移到COCO和VOC等多标签下游任务中带来了一致的增益。

数据集内容

  • code/ 目录:包含参考代码实现。
  • multilabel/ 目录:包含本工作的多标签ImageNet-1K标注。

引用

如需使用本工作,请引用以下文献: bibtex @article{chen2026multilabel_imagenet, title = {Unlocking ImageNets Multi-Object Nature: Automated Large-Scale Multilabel Annotation}, author = {Chen, Junyu and Harun, Md Yousuf and Kanan, Christopher}, journal = {arXiv preprint arXiv:2603.05729}, year = {2026}, url = {https://arxiv.org/abs/2603.05729} }

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉领域,大规模图像数据集的标注质量直接影响模型性能。该数据集通过自动化流程构建,首先利用自监督视觉Transformer提取特征,并应用MaskCut算法生成多个物体提议掩码。随后,通过ReLabel映射筛选与原标注高度对齐的提议区域,以此监督一个轻量级多层感知机分类器的训练。最终,该分类器对全部训练图像的提议进行预测,聚合高置信度的独特类别,形成带有空间掩码的多标签标注,覆盖了约128万张ImageNet-1K训练图像,全程无需人工干预。
特点
该数据集的核心特点在于其区域锚定的多标签标注体系。与传统的单标签ImageNet标注不同,它为每张图像提供了多个物体类别标签,且每个标签均关联到具体的空间掩码,增强了标注的可解释性与空间基础。这种设计有效减少了模型对上下文捷径的依赖,促使模型学习更具判别性的物体特征。此外,标注覆盖了整个ImageNet-1K训练集,规模宏大且一致性强,为多物体识别任务提供了丰富而精确的监督信号。
使用方法
该数据集主要用于提升图像分类与多标签识别模型的性能。研究人员可采用其多标签标注对预训练模型进行微调,或进行端到端的多标签训练。具体使用时,可加载提供的标注文件,将区域提议及其对应的类别标签作为训练目标,融入标准分类损失函数中。该数据集亦支持向下游任务如COCO和PASCAL VOC的多标签迁移学习,通过利用其丰富的物体类别信息,能够显著提升模型在复杂场景中的识别与泛化能力。
背景与挑战
背景概述
ImageNet数据集作为计算机视觉领域的基石,自2009年发布以来,其大规模图像分类任务极大地推动了深度学习模型的发展。然而,其原始标注遵循每张图像单一标签的范式,这与现实世界中图像通常包含多个对象的复杂场景存在显著差距。为弥补这一局限性,研究人员于2026年提出了‘multilabel ImageNet-1K annotations’数据集,该工作由Junyu Chen、Md Yousuf Harun和Christopher Kanan等人完成,核心目标是通过自动化流程解锁ImageNet图像的多对象本质,为训练集生成空间基础的多标签标注。这一创新不仅提升了模型在ImageNet及其变体上的域内性能,还显著增强了向COCO、VOC等多标签下游任务的迁移能力,为视觉识别研究提供了更丰富的监督信号。
当前挑战
该数据集旨在解决图像多标签分类的固有挑战,即如何准确识别并标注单张图像中存在的多个对象类别,避免传统单标签训练所导致的信息丢失与上下文偏见。在构建过程中,研究团队面临诸多技术难题:首先,需在无人工标注的前提下,通过自监督视觉Transformer实现无监督对象发现,以生成高质量的对象提议掩码;其次,必须设计有效的区域选择机制,确保提议与原始标签对齐,从而过滤无关背景噪声;此外,训练轻量级标注器时,需在冻结骨干网络的前提下,仅利用区域特征训练小型MLP头部,以平衡效率与准确性;最后,在全数据集范围内进行标注聚合时,如何避免歧义类别识别与漏检对象,亦是实现可靠多标签注释的关键挑战。
常用场景
经典使用场景
在计算机视觉领域,图像分类任务常面临单标签标注的局限性,而multilabel ImageNet-1K annotations通过提供空间基础的多标签注释,为模型训练引入了更丰富的语义信息。该数据集最经典的使用场景是作为训练数据,支持多标签图像分类模型的开发与评估,尤其在处理包含多个对象的复杂图像时,能够显著提升模型对场景中不同物体的识别能力。研究人员利用这些注释进行微调或端到端训练,以优化模型在ImageNet及其变体上的性能,同时增强模型在跨数据集迁移学习中的泛化能力。
实际应用
在实际应用中,multilabel ImageNet-1K annotations被广泛应用于智能图像分析系统,例如自动驾驶中的场景理解、医疗影像的多病变检测以及电子商务中的产品识别。这些注释帮助模型更准确地识别图像中的多个对象,提高了系统在真实世界复杂环境下的性能。此外,它们还支持内容检索和社交媒体分析等任务,通过提供细粒度的标签信息,增强了自动化处理工具的实用性和效率。
衍生相关工作
该数据集衍生了一系列经典研究工作,包括基于区域对齐训练的策略改进、多标签迁移学习框架的优化,以及结合自监督视觉Transformer的对象发现方法。例如,与ReLabel和ImageNet-Segments等先前工作相比,它推动了更高效的提案过滤和标签分配技术。这些衍生工作不仅扩展了多标签注释在视觉任务中的应用范围,还为后续研究提供了基准,促进了计算机视觉领域在弱监督学习和语义分割方向的创新。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作