ImageNet, LAION-2B

github2024-03-25 更新2024-05-31 收录

下载链接：

https://github.com/BAAI-DCAI/Dataset-Pruning

下载链接

链接失效反馈

官方服务：

资源简介：

在计算机视觉和多模态学习领域，新兴的大型模型，如视觉变换器、CLIP、EVA、SAM、Emu，在可获得大规模训练数据（例如ImageNet-21K、JFT-300M、LAION-5B）时，能够完成各种任务并显著超越传统神经网络。然而，存储大型数据集并对其进行训练既昂贵又可能负担不起。众所周知，大规模数据集包含大量冗余和简单样本，这些样本对模型训练贡献甚微。数据集修剪（或核心集选择）旨在移除那些较少信息量的训练样本，保留原始数据集中的信息量样本，使得在保留的子集上训练的模型能够达到可比性能。

In the fields of computer vision and multimodal learning, emerging large-scale models such as Vision Transformers, CLIP, EVA, SAM, and Emu are capable of accomplishing various tasks and significantly surpassing traditional neural networks when trained on large-scale datasets (e.g., ImageNet-21K, JFT-300M, LAION-5B). However, storing and training on such large datasets is both costly and potentially unaffordable. It is well-known that large-scale datasets contain a significant amount of redundancy and simple samples, which contribute minimally to model training. Dataset pruning (or core-set selection) aims to remove those less informative training samples while retaining the informative ones from the original dataset, enabling models trained on the retained subset to achieve comparable performance.

创建时间：

2023-06-06

原始信息汇总

数据集修剪

数据集概述

目的：在计算机视觉和多模态学习领域，为了解决大型模型训练成本高昂的问题，本数据集修剪项目旨在移除大规模数据集中的冗余和简单样本，保留对模型训练有重要贡献的信息性样本。
包含数据集：ImageNet 和 LAION。

数据集内容

ImageNet：提供 ImageNet-1K/21K 的修剪版本，更多版本即将发布。
LAION：提供 LAION-2B 的修剪版本，更多版本即将发布。

联系方式

如需紧急获取压缩版的 ImageNet-1K/21K 或 LAION-2B，请联系：zhaobo@baai.ac.cn。

搜集汇总

数据集介绍

构建方式

在计算机视觉与多模态学习领域，大规模数据集如ImageNet-21K和LAION-5B的构建为模型训练提供了丰富的数据资源。然而，这些数据集往往包含大量冗余样本，增加了存储与训练成本。为此，BAAI-DCAI团队提出了数据集剪枝技术，通过筛选出信息量较高的样本，构建核心子集，从而在保证模型性能的同时显著降低数据规模。该技术通过算法评估样本对模型训练的贡献度，剔除冗余样本，保留关键数据，实现了数据集的优化与压缩。

特点

ImageNet和LAION-2B数据集的核心子集具有显著的特点。首先，这些子集通过剪枝技术保留了原始数据集中最具信息量的样本，确保了模型训练的高效性。其次，子集规模大幅缩减，降低了存储与计算资源的消耗，同时仍能支持模型达到与完整数据集相当的性能。此外，这些子集经过严格筛选，避免了冗余数据的干扰，为研究者和开发者提供了更高质量的训练数据。

使用方法

使用ImageNet和LAION-2B的核心子集时，用户可通过BAAI-DCAI提供的代码库进行数据加载与处理。具体操作包括下载已发布的核心子集文件，并按照项目文档中的指导进行数据预处理与模型训练。对于急需压缩数据集的研究者，可直接联系团队获取相关资源。此外，用户还可根据自身需求，利用代码库中的剪枝算法对原始数据集进行自定义剪枝，生成适合特定任务的核心子集。

背景与挑战

背景概述

在计算机视觉与多模态学习领域，大规模数据集如ImageNet和LAION-2B的引入，极大地推动了深度学习模型的发展。ImageNet自2009年发布以来，已成为图像分类任务中的基准数据集，其包含的百万级标注图像为卷积神经网络（CNN）和视觉Transformer等模型的训练提供了丰富的数据支持。LAION-2B作为近年来新兴的大规模多模态数据集，进一步扩展了模型在文本与图像联合学习中的应用。这些数据集的构建与研究，主要由斯坦福大学、OpenAI、BAAI等机构推动，其核心研究问题在于如何通过大规模数据训练提升模型的泛化能力与性能。

当前挑战

尽管大规模数据集为模型训练提供了丰富的信息，但其存储与计算成本高昂，且数据集中存在大量冗余样本，这些样本对模型训练的贡献有限。数据集剪枝（Dataset Pruning）技术应运而生，旨在通过筛选出信息量较高的样本，构建核心子集，从而在降低计算成本的同时保持模型性能。然而，剪枝过程中面临诸多挑战：如何定义并量化样本的‘信息量’，如何在剪枝后确保模型的泛化能力不下降，以及如何高效地处理超大规模数据集如LAION-2B的剪枝任务。此外，剪枝算法的设计与实现也需兼顾计算效率与模型性能的平衡，这对研究者的算法优化能力提出了更高要求。

常用场景

经典使用场景

在计算机视觉和多模态学习领域，ImageNet和LAION-2B数据集被广泛用于训练大规模模型，如视觉Transformer、CLIP、EVA、SAM和Emu。这些模型在处理图像分类、目标检测、语义分割等任务时，能够显著超越传统神经网络的表现。通过提供海量的标注数据，这些数据集为模型的预训练和微调提供了坚实的基础。

衍生相关工作

基于ImageNet和LAION-2B数据集，研究人员开发了多种经典模型和算法。例如，CLIP模型通过联合训练图像和文本数据，实现了跨模态的语义理解。EVA模型则通过自监督学习，提升了图像生成的质量。此外，数据集剪枝技术的引入，进一步推动了高效训练方法的研究，为大规模模型的普及和应用奠定了基础。

数据集最近研究