five

zh-plus/tiny-imagenet|图像识别数据集|计算机视觉数据集

收藏
hugging_face2022-07-12 更新2024-03-04 收录
图像识别
计算机视觉
下载链接:
https://hf-mirror.com/datasets/zh-plus/tiny-imagenet
下载链接
链接失效反馈
资源简介:
Tiny-ImageNet数据集包含100,000张64x64大小的彩色图像,分为200个类别,每个类别有500张训练图像、50张验证图像和50张测试图像。该数据集用于图像分类任务,标签为英文。数据集的创建是通过众包方式完成的,并且使用该数据集需要遵守ImageNet的访问条款,仅限于非商业研究和教育目的。
提供机构:
zh-plus
原始信息汇总

数据集概述

数据集描述

  • 名称: Tiny-ImageNet
  • 概要: Tiny ImageNet包含100000张图像,分为200个类别,每个类别有500张图像,图像尺寸为64×64像素。每个类别包含500张训练图像,50张验证图像和50张测试图像。
  • 语言: 英语

数据集结构

数据实例

json { image: <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=64x64 at 0x1A800E8E190, label: 15 }

数据字段

  • image: 包含图像的PIL.Image.Image对象。
  • label: 分类标签,为整数。测试集中的标签为-1,因为标签缺失。

数据分割

训练集 验证集
样本数 100000 10000

使用示例

加载数据集

python def example_usage(): tiny_imagenet = load_dataset(Maysee/tiny-imagenet, split=train) print(tiny_imagenet[0])

if name == main: example_usage()

AI搜集汇总
数据集介绍
main_image_url
构建方式
Tiny-ImageNet数据集是基于ImageNet-1k数据集的一个子集,经过精心筛选和调整,旨在为图像分类任务提供一个轻量级的实验平台。该数据集包含了200个类别的100,000张图像,每个类别包含500张训练图像、50张验证图像和50张测试图像。所有图像均被调整为64×64像素的彩色图像,以便于快速处理和模型训练。数据集的构建过程依赖于众包标注,确保了标签的准确性和多样性。
特点
Tiny-ImageNet数据集以其轻量化和高效性著称,特别适合用于深度学习模型的快速验证和实验。数据集中的图像尺寸统一为64×64像素,显著降低了计算资源的消耗。此外,数据集的类别标签均为英文,便于国际化使用。每个类别的图像数量均衡,确保了模型训练的公平性和泛化能力。数据集的多样性和代表性使其成为图像分类任务中的理想选择。
使用方法
使用Tiny-ImageNet数据集时,可以通过Hugging Face的`load_dataset`函数轻松加载。用户可以选择加载训练集、验证集或测试集,并通过索引访问具体的图像和标签。由于图像文件在访问时自动解码,建议在访问图像列之前先查询样本索引,以提高效率。数据集的使用需遵守ImageNet的访问条款,仅限于非商业研究和教育用途。通过简单的Python代码,用户可以快速加载并开始使用该数据集进行模型训练和评估。
背景与挑战
背景概述
Tiny-ImageNet数据集是ImageNet数据集的一个子集,专为图像分类任务设计,旨在提供一个轻量级的基准测试平台。该数据集由斯坦福大学的研究团队于2017年创建,作为CS231n课程的一部分,用于教学和研究目的。Tiny-ImageNet包含200个类别的100,000张图像,每张图像被调整为64x64像素的彩色图像。每个类别包含500张训练图像、50张验证图像和50张测试图像。该数据集的推出极大地促进了深度学习模型在资源受限环境下的性能评估和优化研究。
当前挑战
Tiny-ImageNet数据集在图像分类领域面临的主要挑战包括:1) 图像分辨率较低(64x64像素),这限制了模型从图像中提取细节信息的能力,增加了分类任务的难度;2) 类别数量较多(200类),且每类样本数量有限,可能导致模型在训练过程中出现过拟合现象;3) 数据集的构建过程中,由于图像尺寸的缩小,部分图像可能丢失了关键特征,影响了数据的质量。这些挑战要求研究人员在设计模型时,必须考虑如何在有限的图像信息下提高分类精度,并有效应对过拟合问题。
常用场景
经典使用场景
Tiny-ImageNet数据集广泛应用于图像分类任务的基准测试中,尤其是在深度学习模型的训练与验证阶段。由于其图像尺寸较小(64x64像素),且包含200个类别的10万张图像,该数据集特别适合用于快速原型设计和算法验证。研究人员通常利用Tiny-ImageNet来评估卷积神经网络(CNN)和其他深度学习模型在有限计算资源下的性能表现。
实际应用
在实际应用中,Tiny-ImageNet数据集被广泛用于教育场景中,作为深度学习课程的实验材料。由于其规模适中,学生可以在个人计算机上轻松进行模型训练,从而深入理解图像分类的基本原理和实现细节。此外,该数据集还被用于工业界的快速算法验证,帮助开发者在资源有限的环境下测试和优化图像识别系统。
衍生相关工作
Tiny-ImageNet数据集催生了许多经典的研究工作,尤其是在小规模图像分类和模型压缩领域。例如,基于该数据集的研究提出了多种高效的卷积神经网络架构和训练策略,这些方法在保持高精度的同时显著减少了计算开销。此外,Tiny-ImageNet还被用于探索迁移学习在图像分类中的应用,推动了跨领域知识迁移的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

RadDet

RadDet是一个包含11种雷达类别的数据集,包括6种新的低概率干扰(LPI)多相码(P1, P2, P3, P4, Px, Zadoff-Chu)和一种新的宽带调频连续波(FMCW)。数据集覆盖500 MHz频段,包含40,000个雷达帧,分为训练集、验证集和测试集。数据集在两种不同的雷达环境中提供:稀疏数据集(RadDet-1T)和密集数据集(RadDet-9T)。

github 收录