ImageNet, LAION-2B|计算机视觉数据集|数据集优化数据集

github2024-03-25 更新2024-05-31 收录

计算机视觉

数据集优化

下载链接：

https://github.com/BAAI-DCAI/Dataset-Pruning

下载链接

链接失效反馈

资源简介：

在计算机视觉和多模态学习领域，新兴的大型模型，如视觉变换器、CLIP、EVA、SAM、Emu，在可获得大规模训练数据（例如ImageNet-21K、JFT-300M、LAION-5B）时，能够完成各种任务并显著超越传统神经网络。然而，存储大型数据集并对其进行训练既昂贵又可能负担不起。众所周知，大规模数据集包含大量冗余和简单样本，这些样本对模型训练贡献甚微。数据集修剪（或核心集选择）旨在移除那些较少信息量的训练样本，保留原始数据集中的信息量样本，使得在保留的子集上训练的模型能够达到可比性能。

In the fields of computer vision and multimodal learning, emerging large-scale models such as Vision Transformers, CLIP, EVA, SAM, and Emu are capable of accomplishing various tasks and significantly surpassing traditional neural networks when trained on large-scale datasets (e.g., ImageNet-21K, JFT-300M, LAION-5B). However, storing and training on such large datasets is both costly and potentially unaffordable. It is well-known that large-scale datasets contain a significant amount of redundancy and simple samples, which contribute minimally to model training. Dataset pruning (or core-set selection) aims to remove those less informative training samples while retaining the informative ones from the original dataset, enabling models trained on the retained subset to achieve comparable performance.

创建时间：

2023-06-06

原始信息汇总

数据集修剪

数据集概述

目的：在计算机视觉和多模态学习领域，为了解决大型模型训练成本高昂的问题，本数据集修剪项目旨在移除大规模数据集中的冗余和简单样本，保留对模型训练有重要贡献的信息性样本。
包含数据集：ImageNet 和 LAION。

数据集内容

ImageNet：提供 ImageNet-1K/21K 的修剪版本，更多版本即将发布。
LAION：提供 LAION-2B 的修剪版本，更多版本即将发布。

联系方式

如需紧急获取压缩版的 ImageNet-1K/21K 或 LAION-2B，请联系：zhaobo@baai.ac.cn。

AI搜集汇总

数据集介绍

构建方式

在计算机视觉与多模态学习领域，大规模数据集如ImageNet-21K和LAION-5B的构建为模型训练提供了丰富的数据资源。然而，这些数据集往往包含大量冗余样本，增加了存储与训练成本。为此，BAAI-DCAI团队提出了数据集剪枝技术，通过筛选出信息量较高的样本，构建核心子集，从而在保证模型性能的同时显著降低数据规模。该技术通过算法评估样本对模型训练的贡献度，剔除冗余样本，保留关键数据，实现了数据集的优化与压缩。

特点

ImageNet和LAION-2B数据集的核心子集具有显著的特点。首先，这些子集通过剪枝技术保留了原始数据集中最具信息量的样本，确保了模型训练的高效性。其次，子集规模大幅缩减，降低了存储与计算资源的消耗，同时仍能支持模型达到与完整数据集相当的性能。此外，这些子集经过严格筛选，避免了冗余数据的干扰，为研究者和开发者提供了更高质量的训练数据。

使用方法

使用ImageNet和LAION-2B的核心子集时，用户可通过BAAI-DCAI提供的代码库进行数据加载与处理。具体操作包括下载已发布的核心子集文件，并按照项目文档中的指导进行数据预处理与模型训练。对于急需压缩数据集的研究者，可直接联系团队获取相关资源。此外，用户还可根据自身需求，利用代码库中的剪枝算法对原始数据集进行自定义剪枝，生成适合特定任务的核心子集。

背景与挑战

背景概述

在计算机视觉与多模态学习领域，大规模数据集如ImageNet和LAION-2B的引入，极大地推动了深度学习模型的发展。ImageNet自2009年发布以来，已成为图像分类任务中的基准数据集，其包含的百万级标注图像为卷积神经网络（CNN）和视觉Transformer等模型的训练提供了丰富的数据支持。LAION-2B作为近年来新兴的大规模多模态数据集，进一步扩展了模型在文本与图像联合学习中的应用。这些数据集的构建与研究，主要由斯坦福大学、OpenAI、BAAI等机构推动，其核心研究问题在于如何通过大规模数据训练提升模型的泛化能力与性能。

当前挑战

尽管大规模数据集为模型训练提供了丰富的信息，但其存储与计算成本高昂，且数据集中存在大量冗余样本，这些样本对模型训练的贡献有限。数据集剪枝（Dataset Pruning）技术应运而生，旨在通过筛选出信息量较高的样本，构建核心子集，从而在降低计算成本的同时保持模型性能。然而，剪枝过程中面临诸多挑战：如何定义并量化样本的‘信息量’，如何在剪枝后确保模型的泛化能力不下降，以及如何高效地处理超大规模数据集如LAION-2B的剪枝任务。此外，剪枝算法的设计与实现也需兼顾计算效率与模型性能的平衡，这对研究者的算法优化能力提出了更高要求。

常用场景

经典使用场景

在计算机视觉和多模态学习领域，ImageNet和LAION-2B数据集被广泛用于训练大规模模型，如视觉Transformer、CLIP、EVA、SAM和Emu。这些模型在处理图像分类、目标检测、语义分割等任务时，能够显著超越传统神经网络的表现。通过提供海量的标注数据，这些数据集为模型的预训练和微调提供了坚实的基础。

衍生相关工作

基于ImageNet和LAION-2B数据集，研究人员开发了多种经典模型和算法。例如，CLIP模型通过联合训练图像和文本数据，实现了跨模态的语义理解。EVA模型则通过自监督学习，提升了图像生成的质量。此外，数据集剪枝技术的引入，进一步推动了高效训练方法的研究，为大规模模型的普及和应用奠定了基础。

数据集最近研究

最新研究方向

在计算机视觉与多模态学习领域，大规模数据集如ImageNet和LAION-2B的广泛应用推动了视觉Transformer、CLIP、EVA等模型的显著性能提升。然而，这些数据集的存储与训练成本高昂，且其中存在大量冗余样本，对模型训练的贡献有限。数据集剪枝技术应运而生，旨在通过筛选出信息量丰富的样本，构建核心子集，从而在降低存储与计算成本的同时，保持模型的性能表现。BAAI-DCAI团队在此领域取得了重要进展，发布了ImageNet-1K/21K的核心子集，并计划进一步扩展至LAION-2B。这一研究方向不仅为大规模模型训练提供了高效的数据支持，也为资源受限的研究者开辟了新的可能性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集，包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境，包括行人、车辆、自行车等多种目标，以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集，手动标注了超过260万个目标边界框，并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展，让高质量机器人数据触手可及，作为上海模塑申城语料普惠计划中的一份子，智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思，重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目，旨在构建国际领先的开源技术底座，标志着具身智能领域「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集，AgiBot World 的长程数据规模高出 10 倍，场景范围覆盖面扩大 100 倍，数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能，从抓取、放置、推、拉等基础操作，到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互，几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。

www.linkedin.com 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成，包含74万篇新闻文档（2.19 GB），均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上，重新整合划分出14个候选分类类别：财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录