five

ImageNet-1K|图像分类数据集|深度学习数据集

收藏
github2024-10-22 更新2024-10-24 收录
图像分类
深度学习
下载链接:
https://github.com/he-y/soft-label-pruning-for-dataset-distillation
下载链接
链接失效反馈
资源简介:
ImageNet-1K是一个大规模的图像数据集,包含1000个类别的图像。该数据集用于图像分类任务,是深度学习领域中广泛使用的基准数据集之一。
创建时间:
2024-10-16
原始信息汇总

Soft Label Pruning for Large-scale Dataset Distillation (LPLD)

数据集概述

该数据集用于验证论文 "Are Large-scale Soft Labels Necessary for Large-scale Dataset Distillation?" 中的方法,旨在减少大规模数据集蒸馏中软标签的存储需求。

数据集内容

模型与类批量归一化 (Model with Class BN)

数据集 模型 大小
ImageNet-1K ResNet18 50.41 MB
Tiny-ImageNet ResNet18 81.30 MB
ImageNet-21K ResNet18 445.87 MB

蒸馏图像数据集 (Distilled Image Dataset)

数据集 设置 数据集大小
ImageNet-1K IPC10<br>IPC20<br>IPC50<br>IPC100<br>IPC200 0.15 GB<br>0.30 GB<br>0.75 GB<br>1.49 GB<br>2.98 GB
Tiny-ImageNet IPC50<br>IPC100 21 MB<br>40 MB
ImageNet-21K IPC10<br>IPC20 3 GB<br>5 GB

软标签对比 (Previous Soft Labels vs Ours)

数据集 设置 之前标签大小 之前模型准确率 我们的标签大小 我们的模型准确率
ImageNet-1K IPC10<br>IPC20<br>IPC50<br>IPC100<br>IPC200 5.67 GB<br>11.33 GB<br>28.33 GB<br>56.66 GB<br>113.33 GB 20.1%<br>33.6%<br>46.8%<br>52.8%<br>57.0% 0.14 GB (40x)<br>0.29 GB (40x)<br>0.71 GB (40x)<br>1.43 GB (40x)<br>2.85 GB (40x) 20.2%<br>33.0%<br>46.7%<br>54.0%<br>59.6%
Tiny-ImageNet IPC50<br>IPC100 449 MB<br>898 MB 41.1%<br>49.7% 11 MB (40x)<br>22 MB (40x) 38.4%<br>46.1%
ImageNet-21K IPC10<br>IPC20 643 GB<br>1286 GB 18.5%<br>20.5% 16 GB (40x)<br>32 GB (40x) 21.3%<br>29.4%

相关资源

AI搜集汇总
数据集介绍
main_image_url
构建方式
ImageNet-1K数据集的构建基于大规模图像数据,通过精心筛选和分类,确保每个类别包含丰富的图像多样性。该数据集的构建过程中,采用了先进的图像处理技术,以确保图像质量和标注的准确性。此外,数据集的构建还考虑了类别间的相似性和差异性,以支持深度学习模型的训练和评估。
特点
ImageNet-1K数据集以其大规模和多样性著称,包含1000个类别,每个类别有1000张图像。该数据集的特点在于其图像的高质量和详细的标注信息,为深度学习模型提供了丰富的训练数据。此外,数据集的类别覆盖广泛,从自然景观到人造物体,涵盖了多种视觉任务的需求。
使用方法
使用ImageNet-1K数据集时,用户可以通过官方提供的下载链接获取数据集文件。下载后,用户可以根据需要选择不同的子集进行训练或测试。数据集的使用通常涉及图像预处理、模型训练和性能评估等步骤。用户还可以根据研究需求,对数据集进行进一步的扩展或修改,以适应特定的应用场景。
背景与挑战
背景概述
ImageNet-1K数据集,作为计算机视觉领域的重要基石,由Lingao Xiao和Yang He等研究人员于近年创建。该数据集的核心研究问题聚焦于大规模数据集的蒸馏,旨在通过减少数据集的规模来提高模型训练的效率。ImageNet-1K的构建不仅推动了图像分类技术的发展,还为深度学习模型的优化提供了新的视角。其影响力在于,通过提供一个高度压缩但信息丰富的数据集,促进了大规模数据处理和模型训练的实际应用。
当前挑战
ImageNet-1K数据集在构建过程中面临的主要挑战包括高类内相似性和大规模软标签的必要性。高类内相似性问题源于以往方法中使用不同类别的样本来构建单一批次进行批量归一化匹配,这限制了类内多样性。此外,大规模软标签的存储需求远超蒸馏数据集本身,导致存储和计算资源的巨大压力。为应对这些挑战,研究团队引入了类内监督和随机剪枝技术,显著减少了软标签的大小,同时提升了模型的性能。
常用场景
经典使用场景
ImageNet-1K数据集在计算机视觉领域中被广泛应用于图像分类任务。其经典使用场景包括训练深度神经网络模型,如ResNet和AlexNet,以提高模型在图像识别任务中的准确性和泛化能力。通过使用ImageNet-1K,研究人员能够验证和优化各种图像分类算法,从而推动该领域的发展。
实际应用
在实际应用中,ImageNet-1K数据集被用于开发和测试各种图像识别系统。例如,在医疗影像分析、自动驾驶和安防监控等领域,基于ImageNet-1K训练的模型能够有效识别和分类图像中的对象,从而提高系统的智能化水平和应用效果。
衍生相关工作
基于ImageNet-1K数据集,许多相关工作得以展开,包括但不限于图像分类模型的优化、数据增强技术的研究以及新型神经网络架构的探索。例如,ResNet和DenseNet等经典网络架构的提出和改进,都是在ImageNet-1K数据集上进行的实验验证。此外,数据集的压缩和提炼技术,如本文提到的软标签压缩方法,也是在该数据集基础上发展起来的重要研究方向。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

Subway Dataset

该数据集包含了全球多个城市的地铁系统数据,包括车站信息、线路图、列车时刻表、乘客流量等。数据集旨在帮助研究人员和开发者分析和模拟城市交通系统,优化地铁运营和乘客体验。

www.kaggle.com 收录

SSDD遥感SAR目标检测数据集-COCO格式

SSDD遥感SAR目标检测数据集-COCO格式,按照官方制定方式划分训练/验证集

AI_Studio 收录

MOOCs Dataset

该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。

www.kaggle.com 收录