five

tomas-gajarsky/cifar10-lt

收藏
Hugging Face2023-12-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/tomas-gajarsky/cifar10-lt
下载链接
链接失效反馈
官方服务:
资源简介:
CIFAR-10-LT不平衡数据集包含少于60,000张32x32像素的彩色图像,分布在10个不同的类别中。每个类别的样本数量以10和100的倍数指数级减少。数据集包括10,000张测试图像,每类1,000张,以及少于50,000张训练图像。每张图像都有一个标签。数据集支持图像分类任务,并且有一个相关的排行榜。数据集的语言为英语,数据字段包括图像和标签,数据分割包括训练集和测试集。数据集遵循Apache License 2.0许可,并提供了引用信息。

CIFAR-10-LT不平衡数据集包含少于60,000张32x32像素的彩色图像,分布在10个不同的类别中。每个类别的样本数量以10和100的倍数指数级减少。数据集包括10,000张测试图像,每类1,000张,以及少于50,000张训练图像。每张图像都有一个标签。数据集支持图像分类任务,并且有一个相关的排行榜。数据集的语言为英语,数据字段包括图像和标签,数据分割包括训练集和测试集。数据集遵循Apache License 2.0许可,并提供了引用信息。
提供机构:
tomas-gajarsky
原始信息汇总

数据集概述

  • 名称: Cifar10-LT
  • 别名: CIFAR-10-LT (Long Tail)
  • 语言: 英语
  • 许可证: Apache-2.0
  • 多语言性: 单语种
  • 大小: 10K<n<100K
  • 源数据集: cifar10
  • 任务类别: 图像分类
  • 数据集信息:
    • 特征:
      • img: 图像数据,类型为image
      • label: 类别标签,类型为class_label,包含10个类别(airplane, automobile, bird, cat, deer, dog, frog, horse, ship, truck)
    • 配置名称: cifar10
    • 分割:
      • train: 训练集,少于50000个样本
      • test: 测试集,10000个样本,总字节数22772838,每个类别1000个样本
  • 下载大小: 170498071字节

数据集描述

  • 概要: Cifar10-LT是一个包含不到60,000张32x32像素彩色图像的不平衡数据集,分布在10个不同的类别中。每个类别的样本数量呈指数级减少,因子为10和100。数据集包括10,000张测试图像,每个类别1000张,以及少于50,000张训练图像。每张图像都有一个标签。
  • 支持的任务: 图像分类
  • 语言: 英语

数据集结构

  • 数据实例: 示例数据包括图像和标签
  • 数据字段:
    • img: 32x32像素的图像,类型为PIL.Image.Image
    • label: 类别标签,范围0-9,对应10个类别
  • 数据分割:
    • train: 训练集,少于50000个样本
    • test: 测试集,10000个样本

许可证信息

Apache License 2.0

引用信息

@TECHREPORT{Krizhevsky09learningmultiple, author = {Alex Krizhevsky}, title = {Learning multiple layers of features from tiny images}, institution = {}, year = {2009} }

搜集汇总
数据集介绍
main_image_url
构建方式
CIFAR-10-LT数据集的构建基于原始CIFAR-10数据集,通过引入长尾分布特性,使得每个类别的样本数量呈指数级递减。具体而言,该数据集包含约60,000张32x32像素的彩色图像,分布在10个类别中,其中训练集样本数量少于50,000,测试集包含10,000张图像,每类1,000张。通过调整类别样本数量,数据集模拟了现实世界中常见的类别不平衡问题,为研究长尾分布下的图像分类任务提供了理想的实验平台。
特点
CIFAR-10-LT数据集的主要特点在于其长尾分布特性,即类别样本数量呈指数级递减,从而模拟了现实世界中的类别不平衡现象。此外,数据集保留了CIFAR-10的原始图像特征,包括32x32像素的彩色图像和10个类别标签,确保了图像分类任务的多样性和挑战性。数据集的结构清晰,包含训练集和测试集,且每个样本均附带明确的类别标签,便于模型训练和评估。
使用方法
CIFAR-10-LT数据集适用于图像分类任务,尤其是针对长尾分布问题的研究。用户可以通过加载数据集的训练集和测试集,分别用于模型训练和性能评估。数据集提供了图像和对应的类别标签,用户可以直接使用这些数据进行模型训练,并通过测试集验证模型的泛化能力。此外,数据集支持多种图像处理库,用户可以根据需求对图像进行预处理或增强,以进一步提升模型的分类性能。
背景与挑战
背景概述
CIFAR-10-LT数据集是基于CIFAR-10数据集的扩展,由Alex Krizhevsky于2009年创建,旨在研究长尾分布问题。该数据集包含近60,000张32x32像素的彩色图像,分为10个类别,每个类别的样本数量呈指数递减,分别以10和100为因子。数据集包括10,000张测试图像,每类1,000张,以及少于50,000张训练图像。CIFAR-10-LT的提出,为图像分类领域中的长尾分布问题提供了重要的研究资源,推动了相关算法的发展。
当前挑战
CIFAR-10-LT数据集的主要挑战在于其长尾分布特性,即少数类别拥有大量样本,而多数类别样本稀少,这使得模型在处理不平衡数据时面临困难。构建过程中,如何确保数据集的多样性和代表性,同时维持类别间的平衡,也是一项技术难题。此外,由于数据集的图像分辨率较低,模型在提取有效特征时可能受到限制,进一步增加了分类任务的复杂性。
常用场景
经典使用场景
CIFAR-10-LT数据集的经典使用场景主要集中在图像分类任务中,特别是在处理长尾分布问题上。该数据集通过模拟类别不平衡的情况,使得研究者能够探索和优化在类别分布不均条件下的分类模型性能。其独特的数据分布特性为研究长尾学习算法提供了理想的实验平台。
实际应用
在实际应用中,CIFAR-10-LT数据集的类别不平衡特性使其在多个领域具有广泛的应用潜力。例如,在医疗诊断中,罕见疾病的识别需要处理类别不平衡问题;在安全监控中,特定事件的检测同样面临类似挑战。通过使用该数据集训练的模型,可以有效提升这些领域中少数类别的识别准确率。
衍生相关工作
基于CIFAR-10-LT数据集,研究者们开发了多种针对长尾分布问题的解决方案,如基于有效样本数的类别平衡损失函数和自适应重采样策略。这些工作不仅在学术界引起了广泛关注,还在多个国际会议和期刊上发表,推动了长尾学习领域的研究进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作