tomas-gajarsky/cifar10-lt

Name: tomas-gajarsky/cifar10-lt
Creator: tomas-gajarsky
Published: 2023-12-10 22:01:29
License: 暂无描述

Hugging Face2023-12-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tomas-gajarsky/cifar10-lt

下载链接

链接失效反馈

官方服务：

资源简介：

CIFAR-10-LT不平衡数据集包含少于60,000张32x32像素的彩色图像，分布在10个不同的类别中。每个类别的样本数量以10和100的倍数指数级减少。数据集包括10,000张测试图像，每类1,000张，以及少于50,000张训练图像。每张图像都有一个标签。数据集支持图像分类任务，并且有一个相关的排行榜。数据集的语言为英语，数据字段包括图像和标签，数据分割包括训练集和测试集。数据集遵循Apache License 2.0许可，并提供了引用信息。

提供机构：

tomas-gajarsky

原始信息汇总

数据集概述

名称: Cifar10-LT
别名: CIFAR-10-LT (Long Tail)
语言: 英语
许可证: Apache-2.0
多语言性: 单语种
大小: 10K<n<100K
源数据集: cifar10
任务类别: 图像分类
数据集信息:
- 特征:
  - img: 图像数据，类型为image
  - label: 类别标签，类型为class_label，包含10个类别（airplane, automobile, bird, cat, deer, dog, frog, horse, ship, truck）
- 配置名称: cifar10
- 分割:
  - train: 训练集，少于50000个样本
  - test: 测试集，10000个样本，总字节数22772838，每个类别1000个样本
下载大小: 170498071字节

数据集描述

概要: Cifar10-LT是一个包含不到60,000张32x32像素彩色图像的不平衡数据集，分布在10个不同的类别中。每个类别的样本数量呈指数级减少，因子为10和100。数据集包括10,000张测试图像，每个类别1000张，以及少于50,000张训练图像。每张图像都有一个标签。
支持的任务: 图像分类
语言: 英语

数据集结构

数据实例: 示例数据包括图像和标签
数据字段:
- img: 32x32像素的图像，类型为PIL.Image.Image
- label: 类别标签，范围0-9，对应10个类别
数据分割:
- train: 训练集，少于50000个样本
- test: 测试集，10000个样本

许可证信息

Apache License 2.0

引用信息

@TECHREPORT{Krizhevsky09learningmultiple, author = {Alex Krizhevsky}, title = {Learning multiple layers of features from tiny images}, institution = {}, year = {2009} }

搜集汇总

数据集介绍

构建方式

CIFAR-10-LT数据集的构建基于原始CIFAR-10数据集，通过引入长尾分布特性，使得每个类别的样本数量呈指数级递减。具体而言，该数据集包含约60,000张32x32像素的彩色图像，分布在10个类别中，其中训练集样本数量少于50,000，测试集包含10,000张图像，每类1,000张。通过调整类别样本数量，数据集模拟了现实世界中常见的类别不平衡问题，为研究长尾分布下的图像分类任务提供了理想的实验平台。

特点

CIFAR-10-LT数据集的主要特点在于其长尾分布特性，即类别样本数量呈指数级递减，从而模拟了现实世界中的类别不平衡现象。此外，数据集保留了CIFAR-10的原始图像特征，包括32x32像素的彩色图像和10个类别标签，确保了图像分类任务的多样性和挑战性。数据集的结构清晰，包含训练集和测试集，且每个样本均附带明确的类别标签，便于模型训练和评估。

使用方法

CIFAR-10-LT数据集适用于图像分类任务，尤其是针对长尾分布问题的研究。用户可以通过加载数据集的训练集和测试集，分别用于模型训练和性能评估。数据集提供了图像和对应的类别标签，用户可以直接使用这些数据进行模型训练，并通过测试集验证模型的泛化能力。此外，数据集支持多种图像处理库，用户可以根据需求对图像进行预处理或增强，以进一步提升模型的分类性能。

背景与挑战

背景概述

CIFAR-10-LT数据集是基于CIFAR-10数据集的扩展，由Alex Krizhevsky于2009年创建，旨在研究长尾分布问题。该数据集包含近60,000张32x32像素的彩色图像，分为10个类别，每个类别的样本数量呈指数递减，分别以10和100为因子。数据集包括10,000张测试图像，每类1,000张，以及少于50,000张训练图像。CIFAR-10-LT的提出，为图像分类领域中的长尾分布问题提供了重要的研究资源，推动了相关算法的发展。

当前挑战

CIFAR-10-LT数据集的主要挑战在于其长尾分布特性，即少数类别拥有大量样本，而多数类别样本稀少，这使得模型在处理不平衡数据时面临困难。构建过程中，如何确保数据集的多样性和代表性，同时维持类别间的平衡，也是一项技术难题。此外，由于数据集的图像分辨率较低，模型在提取有效特征时可能受到限制，进一步增加了分类任务的复杂性。

常用场景

经典使用场景

CIFAR-10-LT数据集的经典使用场景主要集中在图像分类任务中，特别是在处理长尾分布问题上。该数据集通过模拟类别不平衡的情况，使得研究者能够探索和优化在类别分布不均条件下的分类模型性能。其独特的数据分布特性为研究长尾学习算法提供了理想的实验平台。

实际应用

在实际应用中，CIFAR-10-LT数据集的类别不平衡特性使其在多个领域具有广泛的应用潜力。例如，在医疗诊断中，罕见疾病的识别需要处理类别不平衡问题；在安全监控中，特定事件的检测同样面临类似挑战。通过使用该数据集训练的模型，可以有效提升这些领域中少数类别的识别准确率。

衍生相关工作

基于CIFAR-10-LT数据集，研究者们开发了多种针对长尾分布问题的解决方案，如基于有效样本数的类别平衡损失函数和自适应重采样策略。这些工作不仅在学术界引起了广泛关注，还在多个国际会议和期刊上发表，推动了长尾学习领域的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集