mini-imagenet|图像分类数据集|深度学习数据集

huggingface2024-11-21 更新2024-12-12 收录

图像分类

深度学习

下载链接：

https://huggingface.co/datasets/timm/mini-imagenet

下载链接

链接失效反馈

资源简介：

Mini-ImageNet是ImageNet-1k的迷你版本，包含1000个类别中的100个类别。数据集包括原始图像及其原始尺寸，分为训练集、验证集和测试集，分别包含50000、10000和5000个样本。训练集和验证集来自ImageNet-1k的训练集，测试集来自ImageNet-1k的验证集。数据集适用于测试超参数和模型，如timm中的模型。

提供机构：

PyTorch Image Models

创建时间：

2024-11-21

原始信息汇总

Mini-ImageNet 数据集概述

数据集描述

Mini-ImageNet 是 ImageNet-1k 的一个小型版本，包含 100 个类别。与一些“迷你”变体不同，该数据集保留了原始图像的原始尺寸，而不是将其下采样到较小的分辨率。

数据集特征

图像：包含图像数据。
标签：包含类别标签，标签名称对应 ImageNet 的类别编号。

数据集分割

训练集：包含 50000 个样本，来自 ImageNet-1k 的训练集。
验证集：包含 10000 个样本，来自 ImageNet-1k 的训练集。
测试集：包含 5000 个样本，来自 ImageNet-1k 的验证集。

数据集大小

下载大小：7433461683 字节
数据集大小：8242501764 字节

数据集配置

配置名称：default
数据文件路径：
- 训练集：data/train-*
- 验证集：data/validation-*
- 测试集：data/test-*

许可证

许可证名称：imagenet
许可证链接：https://www.image-net.org/download.php

任务类别

图像分类

数据集名称

Mini-ImageNet

数据集规模

10K<n<100K

AI搜集汇总

数据集介绍

构建方式

Mini-ImageNet数据集是从ImageNet-1k数据集中精选出的100个类别构建而成，保留了原始图像的尺寸和分辨率。与某些缩小图像尺寸的变体不同，该数据集未对图像进行降采样处理。训练集包含来自ImageNet-1k训练集的50000个样本，验证集包含10000个样本，测试集则从ImageNet-1k验证集中选取了5000个样本，每个类别包含50个样本。

特点

Mini-ImageNet数据集的特点在于其保留了原始图像的高分辨率，未进行任何降采样处理，确保了图像细节的完整性。数据集涵盖了100个类别，每个类别在测试集中均有50个样本，确保了类别分布的均衡性。此外，数据集的规模适中，既适合快速实验，又能提供足够的多样性以验证模型的泛化能力。

使用方法

Mini-ImageNet数据集适用于图像分类任务的模型训练与验证，特别是在测试超参数和模型性能时表现出色。用户可以通过命令行工具加载数据集，并使用`timm`库中的模型进行训练。例如，使用ResNet50模型进行训练时，可通过指定数据集路径、模型类型和类别数量等参数进行配置。该数据集的使用方式灵活，能够满足不同研究需求。

背景与挑战

背景概述

Mini-ImageNet数据集是ImageNet-1k的一个精简版本，包含了100个类别，旨在为研究人员提供一个更为轻量级的图像分类任务基准。该数据集由ImageNet团队于2015年发布，主要研究人员包括Olga Russakovsky等人。Mini-ImageNet保留了原始图像的分辨率，与某些其他‘迷你’版本不同，后者通常会将图像下采样至84x84等较小分辨率。该数据集在深度学习领域具有重要影响力，特别是在模型超参数调试和快速原型验证方面，为研究人员提供了一个高效且易于管理的实验平台。

当前挑战

Mini-ImageNet数据集在解决图像分类问题时面临的主要挑战包括类别多样性和数据分布的复杂性。尽管数据集规模较小，但其包含的100个类别仍具有较高的多样性，这对模型的泛化能力提出了较高要求。此外，数据集的构建过程中，如何从ImageNet-1k中选取具有代表性的类别和样本，以确保数据集的平衡性和实用性，是一个关键的技术难题。同时，由于数据集的来源和构建细节不够明确，研究人员在使用时可能面临数据一致性和可重复性方面的挑战。

常用场景

经典使用场景

Mini-ImageNet数据集在计算机视觉领域中被广泛用于模型训练和参数调优。由于其包含100个类别的原始图像，且图像分辨率保持原样，该数据集特别适合用于测试和验证深度学习模型在图像分类任务中的性能。研究人员通常利用该数据集进行小样本学习、迁移学习和元学习等前沿研究。

解决学术问题

Mini-ImageNet数据集为研究者提供了一个高效的实验平台，解决了在有限计算资源下进行大规模图像分类模型训练的难题。通过该数据集，研究者能够快速验证新算法和模型架构的有效性，从而加速计算机视觉领域的创新。此外，该数据集还支持小样本学习的研究，帮助解决在实际应用中数据稀缺的问题。

衍生相关工作

Mini-ImageNet数据集催生了许多经典的研究工作，特别是在小样本学习和元学习领域。例如，Vinyales等人提出的匹配网络（Matching Networks）和Snell等人提出的原型网络（Prototypical Networks）都是基于该数据集进行实验和验证的。这些工作不仅推动了小样本学习算法的发展，还为后续研究提供了重要的参考和基础。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

OpenPose

OpenPose数据集包含人体姿态估计的相关数据，主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频，标注了人体关键点位置，适用于研究人体姿态识别和动作分析。

github.com 收录

DALY

DALY数据集包含了全球疾病负担研究（Global Burden of Disease Study）中的伤残调整生命年（Disability-Adjusted Life Years, DALYs）数据。该数据集提供了不同国家和地区在不同年份的DALYs指标，用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

清博指数系统

清博指数是第三方新媒体数据查询平台。其独有的WCI、BCI、TGI算法公式已被多家央企、500强企业引用。此外，清博可根据客户需求，提供全方位指数模型构建、数据分析以及专项数据报告服务。

杭州数据交易所收录

MIMIC-IV数据库

MIMIC全称是Medical Information Mart for Intensive Care, 是一个重症医学数据库。2003年，在NIH的资助下，来自贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)、麻省理工(MIT)、牛津大学和麻省总医院(MGH)的急诊科医生、重症科医生、计算机科学专家等共同建立的一个数据库。

github 收录

rule34lol-images-part1

该数据集包含来自rule34.lol图像板的196,000个图像文件的元数据。元数据包括URL、标签、文件信息和点赞数。实际图像文件存储在zip存档中，每个存档包含1000个图像。该数据集是更大集合的一部分，分为Part 1和Part 2。数据集采用CC0许可，允许免费使用、修改和分发，无需署名。

huggingface 收录