IMAGENET++

Name: IMAGENET++
Creator: 纽约大学
Published: 2024-10-07 22:14:38
License: 暂无描述

arXiv2024-10-07 更新2024-10-09 收录

下载链接：

https://github.com/jimmyxu123/SELECT

下载链接

链接失效反馈

官方服务：

资源简介：

IMAGENET++是由纽约大学创建的一个大规模图像分类数据集，旨在扩展ImageNet-1K，包含5个新的训练数据偏移，每个偏移的大小与ImageNet-1K相当。数据集通过不同的数据整理策略生成，包括合成数据生成和基于CLIP嵌入的查找等方法。创建过程中，研究人员评估了这些数据整理方法在图像分类模型训练中的效果，发现尽管某些策略在特定任务上表现出色，但原始ImageNet-1K的数据整理策略仍然是金标准。IMAGENET++的应用领域主要集中在图像分类和数据整理策略的评估，旨在解决数据整理对模型性能的影响问题。

IMAGENET++ is a large-scale image classification dataset developed by New York University, designed to extend the ImageNet-1K benchmark. It encompasses 5 novel training data shifts, each with a scale comparable to that of ImageNet-1K. The dataset is constructed using diverse data curation strategies, including synthetic data generation and CLIP embedding-based retrieval approaches. During its development, researchers evaluated the efficacy of these data curation strategies for training image classification models. The results demonstrated that although certain strategies delivered strong performance on specific tasks, the original data curation pipeline of ImageNet-1K remains the gold standard. The primary application domains of IMAGENET++ focus on image classification and the evaluation of data curation strategies, aiming to investigate the impact of data curation on model performance.

提供机构：

纽约大学

创建时间：

2024-10-07

原始信息汇总

SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Recognition

数据集概述

名称: SELECT
类型: 图像识别数据集
来源: 2024 NeurIPS Datasets and Benchmarks 论文
论文链接: arXiv:2410.05057

数据集内容

ImageNet++:
- 基于ImageNet-1k的超集
- 包含多种分布偏移的图像数据
- 详细内容和构建策略请参考论文

数据集下载

ImageNet++:
- IN1000: Huggingface
- OI1000: Huggingface
- SD1000(i2i): Huggingface
- SD1000(t2i): Huggingface
- LA1000(i2i): Huggingface
- LA1000(t2i): Huggingface

数据集评估

SELECT基准:
- 评估数据集和模型的多种效用指标
- 包括基础准确率、分布外鲁棒性、迁移学习和自监督学习

预训练模型

ImageNet++预训练模型:
- IN1000: Huggingface
- OI1000: Huggingface
- SD1000(i2i): Huggingface
- SD1000(t2i): Huggingface
- LA1000(i2i): Huggingface
- LA1000(t2i): Huggingface

引用

@misc{feuer2024selectlargescalebenchmarkdata, title={SELECT: A Large-Scale Benchmark of Data Curation Strategies for Image Classification}, author={Benjamin Feuer and Jiawei Xu and Niv Cohen and Patrick Yubeaton and Govind Mittal and Chinmay Hegde}, year={2024}, eprint={2410.05057}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2410.05057}, }

搜集汇总

数据集介绍

构建方式

IMAGENET++ 数据集的构建基于 ImageNet-1K 数据集，通过引入五种新的训练数据偏移来扩展其规模。这些偏移分别通过不同的数据筛选策略生成，包括从 OpenImages 数据集（自然图像）、LAION 数据集（自然图像）和 Stable Diffusion 模型（合成图像）中筛选。每种策略都旨在模拟不同的数据筛选方法，从而为图像分类任务提供多样化的训练数据。

特点

IMAGENET++ 数据集的主要特点在于其多样性和大规模。它不仅包含了原始 ImageNet-1K 数据集的所有样本，还通过五种不同的数据筛选策略生成了额外的训练数据偏移，每种偏移的大小与 ImageNet-1K 相当。这种多样性使得该数据集能够支持对数据筛选策略的系统性评估，特别是在图像分类任务中的应用。

使用方法

IMAGENET++ 数据集的使用方法主要包括两个方面：一是用于训练图像分类模型，通过在不同的数据偏移上训练模型，评估其在不同数据分布下的表现；二是用于评估预训练的自监督表示，通过检查固定预训练模型在不同数据偏移上的表现，分析数据筛选策略对模型性能的影响。此外，该数据集还可用于研究数据筛选策略对模型鲁棒性和泛化能力的影响。

背景与挑战

背景概述

IMAGENET++ 是由纽约大学 DICE 实验室的研究人员创建的一个大规模数据集，旨在通过引入新的训练数据偏移来扩展 ImageNet-1K。该数据集于 2023 年首次提出，通过五种不同的数据管理策略生成了五个新的训练数据偏移，每个偏移的大小与 ImageNet-1K 相当。IMAGENET++ 的核心研究问题是如何在大规模数据集上系统地评估不同的数据管理策略，以提高图像分类模型的效率和性能。该数据集的创建对计算机视觉领域的数据管理研究具有重要影响，为未来的数据管理方法提供了基准。

当前挑战

IMAGENET++ 在构建过程中面临多个挑战。首先，如何在大规模数据集上系统地比较不同的数据管理策略是一个复杂的问题。其次，数据集的构建需要处理不同来源的数据，包括自然图像和合成图像，这带来了数据质量和一致性的挑战。此外，数据集的扩展和维护也需要大量的计算资源和时间。最后，如何确保数据集的广泛适用性和对未来研究的启发性也是一个重要的挑战。

常用场景

经典使用场景

IMAGENET++ 数据集的经典使用场景主要集中在图像分类任务中，特别是在评估和提升模型的鲁棒性方面。该数据集通过引入五种不同的训练数据偏移，每种偏移都采用独特的数据整理策略，从而扩展了原始 ImageNet-1K 数据集。这些偏移包括从 OpenImages 和 LAION 数据集中筛选的自然图像，以及通过 Stable Diffusion 生成的合成图像。通过在 IMAGENET++ 上训练模型，研究人员可以系统地比较不同数据整理策略的效果，特别是在模型对分布外数据的鲁棒性方面。

衍生相关工作

IMAGENET++ 数据集的发布催生了一系列相关的经典工作，特别是在数据整理和模型鲁棒性研究领域。例如，基于 IMAGENET++ 的研究揭示了嵌入式搜索策略在减少成本的同时，仍能保持较高的数据整理质量。此外，该数据集还促进了关于合成数据生成和自然图像筛选策略的深入探讨。这些研究不仅提升了对数据整理过程的理解，还为开发更加高效和鲁棒的机器学习模型提供了理论和实践基础。

数据集最近研究