uoft-cs/cifar10
收藏Hugging Face2024-01-04 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/uoft-cs/cifar10
下载链接
链接失效反馈官方服务:
资源简介:
---
annotations_creators:
- crowdsourced
language_creators:
- found
language:
- en
license:
- unknown
multilinguality:
- monolingual
size_categories:
- 10K<n<100K
source_datasets:
- extended|other-80-Million-Tiny-Images
task_categories:
- image-classification
task_ids: []
paperswithcode_id: cifar-10
pretty_name: Cifar10
dataset_info:
config_name: plain_text
features:
- name: img
dtype: image
- name: label
dtype:
class_label:
names:
'0': airplane
'1': automobile
'2': bird
'3': cat
'4': deer
'5': dog
'6': frog
'7': horse
'8': ship
'9': truck
splits:
- name: train
num_bytes: 113648310.0
num_examples: 50000
- name: test
num_bytes: 22731580.0
num_examples: 10000
download_size: 143646105
dataset_size: 136379890.0
configs:
- config_name: plain_text
data_files:
- split: train
path: plain_text/train-*
- split: test
path: plain_text/test-*
default: true
---
# Dataset Card for CIFAR-10
## Table of Contents
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Homepage:** https://www.cs.toronto.edu/~kriz/cifar.html
- **Repository:**
- **Paper:** Learning Multiple Layers of Features from Tiny Images by Alex Krizhevsky
- **Leaderboard:**
- **Point of Contact:**
### Dataset Summary
The CIFAR-10 dataset consists of 60000 32x32 colour images in 10 classes, with 6000 images per class. There are 50000 training images and 10000 test images.
The dataset is divided into five training batches and one test batch, each with 10000 images. The test batch contains exactly 1000 randomly-selected images from each class. The training batches contain the remaining images in random order, but some training batches may contain more images from one class than another. Between them, the training batches contain exactly 5000 images from each class.
### Supported Tasks and Leaderboards
- `image-classification`: The goal of this task is to classify a given image into one of 10 classes. The leaderboard is available [here](https://paperswithcode.com/sota/image-classification-on-cifar-10).
### Languages
English
## Dataset Structure
### Data Instances
A sample from the training set is provided below:
```
{
'img': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=32x32 at 0x201FA6EE748>,
'label': 0
}
```
### Data Fields
- img: A `PIL.Image.Image` object containing the 32x32 image. Note that when accessing the image column: `dataset[0]["image"]` the image file is automatically decoded. Decoding of a large number of image files might take a significant amount of time. Thus it is important to first query the sample index before the `"image"` column, *i.e.* `dataset[0]["image"]` should **always** be preferred over `dataset["image"][0]`
- label: 0-9 with the following correspondence
0 airplane
1 automobile
2 bird
3 cat
4 deer
5 dog
6 frog
7 horse
8 ship
9 truck
### Data Splits
Train and Test
## Dataset Creation
### Curation Rationale
[More Information Needed]
### Source Data
#### Initial Data Collection and Normalization
[More Information Needed]
#### Who are the source language producers?
[More Information Needed]
### Annotations
#### Annotation process
[More Information Needed]
#### Who are the annotators?
[More Information Needed]
### Personal and Sensitive Information
[More Information Needed]
## Considerations for Using the Data
### Social Impact of Dataset
[More Information Needed]
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Dataset Curators
[More Information Needed]
### Licensing Information
[More Information Needed]
### Citation Information
```
@TECHREPORT{Krizhevsky09learningmultiple,
author = {Alex Krizhevsky},
title = {Learning multiple layers of features from tiny images},
institution = {},
year = {2009}
}
```
### Contributions
Thanks to [@czabo](https://github.com/czabo) for adding this dataset.
annotations_creators:
- 众包(crowdsourced)
language_creators:
- 公开获取(found)
language:
- 英语(en)
license:
- 未知(unknown)
multilinguality:
- 单语言(monolingual)
size_categories:
- 10000 < 样本数 < 100000
source_datasets:
- 扩展|其他-8000万微小图像数据集(extended|other-80-Million-Tiny-Images)
task_categories:
- 图像分类(image-classification)
task_ids: []
paperswithcode_id: cifar-10
pretty_name: CIFAR-10
dataset_info:
config_name: plain_text
features:
- name: img
dtype: 图像(image)
- name: label
dtype:
class_label:
names:
'0': 飞机(airplane)
'1': 汽车(automobile)
'2': 鸟类(bird)
'3': 猫(cat)
'4': 鹿(deer)
'5': 狗(dog)
'6': 青蛙(frog)
'7': 马(horse)
'8': 船舶(ship)
'9': 卡车(truck)
splits:
- name: 训练集(train)
num_bytes: 113648310.0
num_examples: 50000
- name: 测试集(test)
num_bytes: 22731580.0
num_examples: 10000
download_size: 143646105
dataset_size: 136379890.0
configs:
- config_name: plain_text
data_files:
- split: 训练集(train)
path: plain_text/train-*
- split: 测试集(test)
path: plain_text/test-*
default: true
# CIFAR-10 数据集卡片
## 目录
- [数据集描述](#dataset-description)
- [数据集概述](#dataset-summary)
- [支持任务与榜单](#supported-tasks-and-leaderboards)
- [语言](#languages)
- [数据集结构](#dataset-structure)
- [数据实例](#data-instances)
- [数据字段](#data-fields)
- [数据划分](#data-splits)
- [数据集构建](#dataset-creation)
- [数据集筛选依据](#curation-rationale)
- [源数据](#source-data)
- [注释](#annotations)
- [个人与敏感信息](#personal-and-sensitive-information)
- [数据集使用注意事项](#considerations-for-using-the-data)
- [数据集的社会影响](#social-impact-of-dataset)
- [偏差分析](#discussion-of-biases)
- [其他已知局限](#other-known-limitations)
- [附加信息](#additional-information)
- [数据集维护者](#dataset-curators)
- [许可信息](#licensing-information)
- [引用信息](#citation-information)
- [贡献者](#contributions)
## 数据集描述
- **主页**: https://www.cs.toronto.edu/~kriz/cifar.html
- **代码仓库**:
- **论文**: Alex Krizhevsky 所著《从微小图像中学习多层特征》(*Learning Multiple Layers of Features from Tiny Images*)
- **榜单**:
- **联系人**:
### 数据集概述
CIFAR-10 数据集包含10个类别共计60000张32×32彩色图像,每个类别包含6000张图像。其中训练集包含50000张图像,测试集包含10000张图像。
该数据集被划分为5个训练批次与1个测试批次,每个批次包含10000张图像。测试批次严格包含每个类别的1000张随机选取的图像。训练批次包含剩余的图像且顺序随机,但部分训练批次中某一类别的图像数量可能多于其他类别。所有训练批次合计每个类别恰好包含5000张图像。
### 支持任务与榜单
- `图像分类(image-classification)`: 该任务的目标是将给定图像分类至10个类别之一。相关榜单可参见[此处](https://paperswithcode.com/sota/image-classification-on-cifar-10)。
### 语言
英语
## 数据集结构
### 数据实例
以下展示训练集的一个样本:
{
'img': <PIL.PngImagePlugin.PngImageFile image mode=RGB size=32x32 at 0x201FA6EE748>,
'label': 0
}
### 数据字段
- img(图像): 一个`PIL.Image.Image`对象,包含32×32的图像。请注意,当访问图像列时:`dataset[0]["image"]`会自动对图像文件进行解码。解码大量图像文件可能会耗费较多时间,因此建议优先通过样本索引访问图像列,即**始终优先使用`dataset[0]["image"]`而非`dataset["image"][0]`**
- label(标签): 取值范围为0-9,对应关系如下:
0 飞机
1 汽车
2 鸟类
3 猫
4 鹿
5 狗
6 青蛙
7 马
8 船舶
9 卡车
### 数据划分
训练集与测试集
## 数据集构建
### 数据集筛选依据
[需补充更多信息]
### 源数据
#### 初始数据收集与归一化
[需补充更多信息]
#### 源语言生成者
[需补充更多信息]
### 注释
#### 注释流程
[需补充更多信息]
#### 注释人员
[需补充更多信息]
### 个人与敏感信息
[需补充更多信息]
## 数据集使用注意事项
### 数据集的社会影响
[需补充更多信息]
### 偏差分析
[需补充更多信息]
### 其他已知局限
[需补充更多信息]
## 附加信息
### 数据集维护者
[需补充更多信息]
### 许可信息
[需补充更多信息]
### 引用信息
@TECHREPORT{Krizhevsky09learningmultiple,
author = {Alex Krizhevsky},
title = {Learning multiple layers of features from tiny images},
institution = {},
year = {2009}
}
### 贡献者
感谢 [@czabo](https://github.com/czabo) 贡献此数据集。
提供机构:
uoft-cs
原始信息汇总
数据集概述
数据集描述
数据集摘要
CIFAR-10数据集包含60000张32x32的彩色图像,分为10个类别,每个类别有6000张图像。数据集分为50000张训练图像和10000张测试图像。训练集和测试集分别包含5个训练批次和1个测试批次,每个批次有10000张图像。测试批次包含每个类别随机选择的1000张图像,而训练批次包含剩余的图像,但某些训练批次可能包含更多来自一个类别的图像。
支持的任务和排行榜
image-classification:任务目标是将给定图像分类为10个类别之一。排行榜可在这里查看。
语言
英语
数据集结构
数据实例
训练集的一个样本如下:
{ img: <PIL.PngImagePlugin.PngImageFile image mode=RGB size=32x32 at 0x201FA6EE748>, label: 0 }
数据字段
img:包含32x32图像的PIL.Image.Image对象。label:0-9,对应以下类别:- 0: 飞机
- 1: 汽车
- 2: 鸟
- 3: 猫
- 4: 鹿
- 5: 狗
- 6: 青蛙
- 7: 马
- 8: 船
- 9: 卡车
数据分割
训练集和测试集
数据集创建
数据集信息
annotations_creators: crowdsourcedlanguage_creators: foundlanguage: enlicense: unknownmultilinguality: monolingualsize_categories: 10K<n<100Ksource_datasets: extended|other-80-Million-Tiny-Imagestask_categories: image-classificationpaperswithcode_id: cifar-10pretty_name: Cifar10
数据集配置
config_name: plain_textfeatures:name: imgdtype: imagename: labeldtype:class_label:names: 0: 飞机 1: 汽车 2: 鸟 3: 猫 4: 鹿 5: 狗 6: 青蛙 7: 马 8: 船 9: 卡车
splits:name: trainnum_bytes: 113648310.0num_examples: 50000name: testnum_bytes: 22731580.0num_examples: 10000
download_size: 143646105dataset_size: 136379890.0
数据文件
config_name: plain_textdata_files:split: trainpath: plain_text/train-*split: testpath: plain_text/test-*default: true
搜集汇总
数据集介绍

构建方式
CIFAR-10数据集的构建基于60,000张32x32像素的彩色图像,涵盖10个类别,每个类别包含6,000张图像。数据集被划分为50,000张训练图像和10,000张测试图像。训练集由五个批次组成,每个批次包含10,000张图像,而测试集则包含从每个类别中随机选择的1,000张图像。训练批次中的图像随机排列,确保每个类别在训练集中有5,000张图像。
使用方法
使用CIFAR-10数据集时,用户可以通过加载训练和测试集进行模型训练和评估。数据集提供了图像和对应的类别标签,用户可以利用这些数据进行图像分类任务。建议在访问图像数据时,优先使用索引方式(如dataset[0]['img'])以提高效率。此外,数据集支持多种编程语言和框架,用户可以根据需求选择合适的工具进行数据处理和模型训练。
背景与挑战
背景概述
CIFAR-10数据集由Alex Krizhevsky于2009年创建,是计算机视觉领域中广泛使用的基准数据集之一。该数据集包含60,000张32x32像素的彩色图像,分为10个类别,每个类别有6,000张图像。CIFAR-10的创建旨在推动图像分类技术的发展,特别是在深度学习兴起之前,为研究人员提供了一个标准化的测试平台。其影响力在于,许多早期的深度学习模型,如卷积神经网络(CNN),都是在这个数据集上进行验证和优化的。
当前挑战
CIFAR-10数据集在图像分类领域中面临的主要挑战包括:1) 图像分辨率较低,导致细节信息不足,影响分类精度;2) 数据集规模相对较小,难以充分训练复杂的深度学习模型;3) 数据集的构建过程中,图像的随机选择和分配可能导致某些类别的样本分布不均,增加了模型训练的难度。此外,CIFAR-10的标注过程依赖于众包,可能引入标注误差,进一步增加了数据集的复杂性。
常用场景
经典使用场景
在计算机视觉领域,CIFAR-10数据集被广泛用于图像分类任务的基准测试。该数据集包含60,000张32x32像素的彩色图像,分为10个类别,每个类别有6,000张图像。训练集和测试集分别包含50,000张和10,000张图像。研究人员常利用此数据集来评估和比较不同深度学习模型的性能,尤其是在卷积神经网络(CNN)的发展过程中,CIFAR-10成为了验证模型有效性的重要工具。
解决学术问题
CIFAR-10数据集在学术研究中解决了图像分类任务中的基准问题。通过提供一个标准化的数据集,研究人员能够在一个统一的平台上比较和评估不同的算法和模型。这不仅促进了图像分类技术的发展,还为深度学习模型的优化和改进提供了重要的参考。此外,CIFAR-10的广泛使用也推动了计算机视觉领域内算法的透明度和可重复性研究。
实际应用
在实际应用中,CIFAR-10数据集为图像识别系统提供了基础训练数据。例如,在自动驾驶、安防监控和医疗影像分析等领域,基于CIFAR-10训练的模型可以用于快速识别和分类图像中的对象。此外,该数据集也被用于开发和测试新的图像处理算法,确保其在实际应用中的稳定性和准确性。
数据集最近研究
最新研究方向
在计算机视觉领域,CIFAR-10数据集因其丰富的图像分类任务而备受关注。近年来,研究者们致力于提升模型在CIFAR-10上的性能,尤其是在小样本学习、数据增强和模型压缩等方面的创新。这些研究不仅推动了图像分类技术的发展,也为其他领域的深度学习应用提供了宝贵的经验。此外,随着对抗训练和自监督学习方法的兴起,CIFAR-10数据集成为了验证这些新兴技术有效性的重要平台。
以上内容由遇见数据集搜集并总结生成



