ImageNet-1K|图像分类数据集|深度学习数据集
收藏github2024-10-22 更新2024-10-24 收录
下载链接:
https://github.com/he-y/soft-label-pruning-for-dataset-distillation
下载链接
链接失效反馈资源简介:
ImageNet-1K是一个大规模的图像数据集,包含1000个类别的图像。该数据集用于图像分类任务,是深度学习领域中广泛使用的基准数据集之一。
创建时间:
2024-10-16
原始信息汇总
Soft Label Pruning for Large-scale Dataset Distillation (LPLD)
数据集概述
该数据集用于验证论文 "Are Large-scale Soft Labels Necessary for Large-scale Dataset Distillation?" 中的方法,旨在减少大规模数据集蒸馏中软标签的存储需求。
数据集内容
模型与类批量归一化 (Model with Class BN)
| 数据集 | 模型 | 大小 |
|---|---|---|
| ImageNet-1K | ResNet18 | 50.41 MB |
| Tiny-ImageNet | ResNet18 | 81.30 MB |
| ImageNet-21K | ResNet18 | 445.87 MB |
蒸馏图像数据集 (Distilled Image Dataset)
| 数据集 | 设置 | 数据集大小 |
|---|---|---|
| ImageNet-1K | IPC10<br>IPC20<br>IPC50<br>IPC100<br>IPC200 | 0.15 GB<br>0.30 GB<br>0.75 GB<br>1.49 GB<br>2.98 GB |
| Tiny-ImageNet | IPC50<br>IPC100 | 21 MB<br>40 MB |
| ImageNet-21K | IPC10<br>IPC20 | 3 GB<br>5 GB |
软标签对比 (Previous Soft Labels vs Ours)
| 数据集 | 设置 | 之前标签大小 | 之前模型准确率 | 我们的标签大小 | 我们的模型准确率 |
|---|---|---|---|---|---|
| ImageNet-1K | IPC10<br>IPC20<br>IPC50<br>IPC100<br>IPC200 | 5.67 GB<br>11.33 GB<br>28.33 GB<br>56.66 GB<br>113.33 GB | 20.1%<br>33.6%<br>46.8%<br>52.8%<br>57.0% | 0.14 GB (40x)<br>0.29 GB (40x)<br>0.71 GB (40x)<br>1.43 GB (40x)<br>2.85 GB (40x) | 20.2%<br>33.0%<br>46.7%<br>54.0%<br>59.6% |
| Tiny-ImageNet | IPC50<br>IPC100 | 449 MB<br>898 MB | 41.1%<br>49.7% | 11 MB (40x)<br>22 MB (40x) | 38.4%<br>46.1% |
| ImageNet-21K | IPC10<br>IPC20 | 643 GB<br>1286 GB | 18.5%<br>20.5% | 16 GB (40x)<br>32 GB (40x) | 21.3%<br>29.4% |
相关资源
AI搜集汇总
数据集介绍

构建方式
ImageNet-1K数据集的构建基于大规模图像数据,通过精心筛选和分类,确保每个类别包含丰富的图像多样性。该数据集的构建过程中,采用了先进的图像处理技术,以确保图像质量和标注的准确性。此外,数据集的构建还考虑了类别间的相似性和差异性,以支持深度学习模型的训练和评估。
特点
ImageNet-1K数据集以其大规模和多样性著称,包含1000个类别,每个类别有1000张图像。该数据集的特点在于其图像的高质量和详细的标注信息,为深度学习模型提供了丰富的训练数据。此外,数据集的类别覆盖广泛,从自然景观到人造物体,涵盖了多种视觉任务的需求。
使用方法
使用ImageNet-1K数据集时,用户可以通过官方提供的下载链接获取数据集文件。下载后,用户可以根据需要选择不同的子集进行训练或测试。数据集的使用通常涉及图像预处理、模型训练和性能评估等步骤。用户还可以根据研究需求,对数据集进行进一步的扩展或修改,以适应特定的应用场景。
背景与挑战
背景概述
ImageNet-1K数据集,作为计算机视觉领域的重要基石,由Lingao Xiao和Yang He等研究人员于近年创建。该数据集的核心研究问题聚焦于大规模数据集的蒸馏,旨在通过减少数据集的规模来提高模型训练的效率。ImageNet-1K的构建不仅推动了图像分类技术的发展,还为深度学习模型的优化提供了新的视角。其影响力在于,通过提供一个高度压缩但信息丰富的数据集,促进了大规模数据处理和模型训练的实际应用。
当前挑战
ImageNet-1K数据集在构建过程中面临的主要挑战包括高类内相似性和大规模软标签的必要性。高类内相似性问题源于以往方法中使用不同类别的样本来构建单一批次进行批量归一化匹配,这限制了类内多样性。此外,大规模软标签的存储需求远超蒸馏数据集本身,导致存储和计算资源的巨大压力。为应对这些挑战,研究团队引入了类内监督和随机剪枝技术,显著减少了软标签的大小,同时提升了模型的性能。
常用场景
经典使用场景
ImageNet-1K数据集在计算机视觉领域中被广泛应用于图像分类任务。其经典使用场景包括训练深度神经网络模型,如ResNet和AlexNet,以提高模型在图像识别任务中的准确性和泛化能力。通过使用ImageNet-1K,研究人员能够验证和优化各种图像分类算法,从而推动该领域的发展。
实际应用
在实际应用中,ImageNet-1K数据集被用于开发和测试各种图像识别系统。例如,在医疗影像分析、自动驾驶和安防监控等领域,基于ImageNet-1K训练的模型能够有效识别和分类图像中的对象,从而提高系统的智能化水平和应用效果。
衍生相关工作
基于ImageNet-1K数据集,许多相关工作得以展开,包括但不限于图像分类模型的优化、数据增强技术的研究以及新型神经网络架构的探索。例如,ResNet和DenseNet等经典网络架构的提出和改进,都是在ImageNet-1K数据集上进行的实验验证。此外,数据集的压缩和提炼技术,如本文提到的软标签压缩方法,也是在该数据集基础上发展起来的重要研究方向。
以上内容由AI搜集并总结生成



