clane9/imagenet-100

Name: clane9/imagenet-100
Creator: clane9
Published: 2024-05-04 01:24:09
License: 暂无描述

Hugging Face2024-05-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/clane9/imagenet-100

下载链接

链接失效反馈

官方服务：

资源简介：

ImageNet-100是原始ImageNet-1k数据集的一个子集，包含随机选择的100个类别。此外，图像的较短边被调整为160像素。数据集包含图像和标签两个主要字段，标签是基于imagenet100.txt文件中的synset id索引的。数据集分为训练集和验证集，分别包含126689和5000个样本。

提供机构：

clane9

原始信息汇总

数据集概述

数据集信息

特征

image: 图像数据，类型为 image。
label: 分类标签，类型为 class_label，包含以下类别：
- 0: bonnet, poke bonnet
- 1: green mamba
- 2: langur
- 3: Doberman, Doberman pinscher
- 4: gyromitra
- 5: Saluki, gazelle hound
- 6: vacuum, vacuum cleaner
- 7: window screen
- 8: cocktail shaker
- 9: garden spider, Aranea diademata
- 10: garter snake, grass snake
- 11: carbonara
- 12: pineapple, ananas
- 13: computer keyboard, keypad
- 14: tripod
- 15: komondor
- 16: American lobster, Northern lobster, Maine lobster, Homarus americanus
- 17: bannister, banister, balustrade, balusters, handrail
- 18: honeycomb
- 19: tile roof
- 20: papillon
- 21: boathouse
- 22: stinkhorn, carrion fungus
- 23: jean, blue jean, denim
- 24: Chihuahua
- 25: Chesapeake Bay retriever
- 26: robin, American robin, Turdus migratorius
- 27: tub, vat
- 28: Great Dane
- 29: rotisserie
- 30: bottlecap
- 31: throne
- 32: little blue heron, Egretta caerulea
- 33: rock crab, Cancer irroratus
- 34: Rottweiler
- 35: lorikeet
- 36: Gila monster, Heloderma suspectum
- 37: head cabbage
- 38: car wheel
- 39: coyote, prairie wolf, brush wolf, Canis latrans
- 40: moped
- 41: milk can
- 42: mixing bowl
- 43: toy terrier
- 44: chocolate sauce, chocolate syrup
- 45: rocking chair, rocker
- 46: wing
- 47: park bench
- 48: ambulance
- 49: football helmet
- 50: leafhopper
- 51: cauliflower
- 52: pirate, pirate ship
- 53: purse
- 54: hare
- 55: lampshade, lamp shade
- 56: fiddler crab
- 57: standard poodle
- 58: Shih-Tzu
- 59: pedestal, plinth, footstall
- 60: gibbon, Hylobates lar
- 61: safety pin
- 62: English foxhound
- 63: chime, bell, gong
- 64: American Staffordshire terrier, Staffordshire terrier, American pit bull terrier, pit bull terrier
- 65: bassinet
- 66: wild boar, boar, Sus scrofa
- 67: theater curtain, theatre curtain
- 68: dung beetle
- 69: hognose snake, puff adder, sand viper
- 70: Mexican hairless
- 71: mortarboard
- 72: Walker hound, Walker foxhound
- 73: red fox, Vulpes vulpes
- 74: modem
- 75: slide rule, slipstick
- 76: walking stick, walkingstick, stick insect
- 77: cinema, movie theater, movie theatre, movie house, picture palace
- 78: meerkat, mierkat
- 79: kuvasz
- 80: obelisk
- 81: harmonica, mouth organ, harp, mouth harp
- 82: sarong
- 83: mousetrap
- 84: hard disc, hard disk, fixed disk
- 85: American coot, marsh hen, mud hen, water hen, Fulica americana
- 86: reel
- 87: pickup, pickup truck
- 88: iron, smoothing iron
- 89: tabby, tabby cat
- 90: ski mask
- 91: vizsla, Hungarian pointer
- 92: laptop, laptop computer
- 93: stretcher
- 94: Dutch oven
- 95: African hunting dog, hyena dog, Cape hunting dog, Lycaon pictus
- 96: boxer
- 97: gasmask, respirator, gas helmet
- 98: goose
- 99: borzoi, Russian wolfhound

数据分割

train: 包含 126689 个样本，大小为 8091813320.875 字节。
validation: 包含 5000 个样本，大小为 314447246 字节。

数据集大小

下载大小: 8406986315 字节
数据集大小: 8406260566.875 字节

配置

config_name: default
- 数据文件:
  - train: data/train-*
  - validation: data/validation-*

任务类别

image-classification

大小类别

100K<n<1M

数据集结构

数据实例

一个示例数据实例如下：

{ image: <PIL.PngImagePlugin.PngImageFile image mode=RGB size=160x213>, label: 0 }

数据字段

image: 一个 PIL.Image.Image 对象，包含图像数据。
label: 一个 int 类型的分类标签。

标签基于 imagenet100.txt 中排序的 synset ids 自动映射到原始类名。

数据分割

	train	validation
# of examples	126689	5000

附加信息

许可信息

使用 ImageNet 数据库需遵守以下条款和条件：

仅用于非商业研究和教育目的。
普林斯顿大学和斯坦福大学不提供任何关于数据库的声明或保证。
使用者需对其使用数据库的行为及其产生的任何索赔承担全部责任。
使用者可向研究合作伙伴和同事提供数据库访问权限，前提是他们同意遵守这些条款和条件。
普林斯顿大学和斯坦福大学保留随时终止使用者访问数据库的权利。
如果使用者受雇于营利性商业实体，其雇主也应受这些条款和条件的约束。
本协议的所有争议适用新泽西州的法律。

引用信息

bibtex @article{imagenet15russakovsky, Author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei}, Title = { {ImageNet Large Scale Visual Recognition Challenge} }, Year = {2015}, journal = {International Journal of Computer Vision (IJCV)}, doi = {10.1007/s11263-015-0816-y}, volume={115}, number={3}, pages={211-252} }

@inproceedings{tian2020contrastive, title={Contrastive multiview coding}, author={Tian, Yonglong and Krishnan, Dilip and Isola, Phillip}, booktitle={Computer Vision--ECCV 2020: 16th European Conference, Glasgow, UK, August 23--28, 2020, Proceedings, Part XI 16}, pages={776--794}, year={2020}, organization={Springer} }

搜集汇总

数据集介绍

构建方式

ImageNet-100数据集是ImageNet-1k数据集的一个子集，从中随机选取了100个类别。该数据集的构建过程包括从ImageNet-1k中抽取类别，并对选定的图像进行缩放处理，以确保短边长度为160像素，以适应特定的研究需求。

特点

该数据集的特点在于其规模适中，便于快速迭代实验，同时涵盖了广泛的对象类别，为图像识别研究提供了多样化的样本。此外，数据集的标签索引基于排序后的synset ids列表自动映射到原始类别名称，保证了数据的一致性和准确性。

使用方法

使用ImageNet-100数据集时，用户可以访问训练集和验证集。数据实例包括图像和标签字段，图像为PIL图像对象，标签为整数分类标签。用户需要遵守使用许可，仅将数据集用于非商业性研究和教育目的，并确保在使用过程中遵守相关法律法规。

背景与挑战

背景概述

ImageNet-100数据集是ImageNet-1k的子集，包含了随机选取的100个类别，旨在为图像分类研究提供一个规模较小的测试平台。该数据集起源于2015年，由Olga Russakovsky等研究人员在普林斯顿大学和斯坦福大学开展的工作，是图像识别领域内极具影响力的数据集之一。ImageNet-100的构建，是为了在保持ImageNet数据集特性的同时，减轻计算资源的需求，从而使得更多的研究者和机构能够进行图像分类的研究与实验。其对于推动深度学习在图像识别领域的应用与发展起到了重要作用。

当前挑战

尽管ImageNet-100数据集在图像分类领域具有重要价值，但在使用过程中也存在一些挑战。首先，数据集的构建过程中，如何保证所选取的100个类别能够代表整个ImageNet的多样性是一个挑战。其次，由于数据集规模相对较小，可能导致模型过拟合，因此在模型泛化能力上存在一定的挑战。此外，数据集的版权和使用许可也为研究带来了一定的限制，要求使用者仅限于非商业性质的研究和教育目的，这可能会限制数据集在某些领域的应用。

常用场景

经典使用场景

在计算机视觉与深度学习研究领域，ImageNet-100数据集常被用于图像分类任务，其经典使用场景在于评估和训练深度学习模型在识别特定类别图像方面的性能。该数据集包含100个随机选择的类别，每个类别包含众多图像实例，为模型提供了丰富的学习素材。

衍生相关工作

基于ImageNet-100数据集，研究者们衍生出了一系列相关工作，包括但不限于对比多视角编码、图像识别算法的改进以及视觉注意力机制的研究。这些工作进一步扩展了数据集的应用范围，并推动了计算机视觉技术的进步。

数据集最近研究