five

tomas-gajarsky/cifar10-lt|图像分类数据集|长尾分布数据集

收藏
hugging_face2023-12-10 更新2024-03-04 收录
图像分类
长尾分布
下载链接:
https://hf-mirror.com/datasets/tomas-gajarsky/cifar10-lt
下载链接
链接失效反馈
资源简介:
CIFAR-10-LT不平衡数据集包含少于60,000张32x32像素的彩色图像,分布在10个不同的类别中。每个类别的样本数量以10和100的倍数指数级减少。数据集包括10,000张测试图像,每类1,000张,以及少于50,000张训练图像。每张图像都有一个标签。数据集支持图像分类任务,并且有一个相关的排行榜。数据集的语言为英语,数据字段包括图像和标签,数据分割包括训练集和测试集。数据集遵循Apache License 2.0许可,并提供了引用信息。

CIFAR-10-LT不平衡数据集包含少于60,000张32x32像素的彩色图像,分布在10个不同的类别中。每个类别的样本数量以10和100的倍数指数级减少。数据集包括10,000张测试图像,每类1,000张,以及少于50,000张训练图像。每张图像都有一个标签。数据集支持图像分类任务,并且有一个相关的排行榜。数据集的语言为英语,数据字段包括图像和标签,数据分割包括训练集和测试集。数据集遵循Apache License 2.0许可,并提供了引用信息。
提供机构:
tomas-gajarsky
原始信息汇总

数据集概述

  • 名称: Cifar10-LT
  • 别名: CIFAR-10-LT (Long Tail)
  • 语言: 英语
  • 许可证: Apache-2.0
  • 多语言性: 单语种
  • 大小: 10K<n<100K
  • 源数据集: cifar10
  • 任务类别: 图像分类
  • 数据集信息:
    • 特征:
      • img: 图像数据,类型为image
      • label: 类别标签,类型为class_label,包含10个类别(airplane, automobile, bird, cat, deer, dog, frog, horse, ship, truck)
    • 配置名称: cifar10
    • 分割:
      • train: 训练集,少于50000个样本
      • test: 测试集,10000个样本,总字节数22772838,每个类别1000个样本
  • 下载大小: 170498071字节

数据集描述

  • 概要: Cifar10-LT是一个包含不到60,000张32x32像素彩色图像的不平衡数据集,分布在10个不同的类别中。每个类别的样本数量呈指数级减少,因子为10和100。数据集包括10,000张测试图像,每个类别1000张,以及少于50,000张训练图像。每张图像都有一个标签。
  • 支持的任务: 图像分类
  • 语言: 英语

数据集结构

  • 数据实例: 示例数据包括图像和标签
  • 数据字段:
    • img: 32x32像素的图像,类型为PIL.Image.Image
    • label: 类别标签,范围0-9,对应10个类别
  • 数据分割:
    • train: 训练集,少于50000个样本
    • test: 测试集,10000个样本

许可证信息

Apache License 2.0

引用信息

@TECHREPORT{Krizhevsky09learningmultiple, author = {Alex Krizhevsky}, title = {Learning multiple layers of features from tiny images}, institution = {}, year = {2009} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
CIFAR-10-LT数据集的构建基于原始CIFAR-10数据集,通过引入长尾分布特性,使得每个类别的样本数量呈指数级递减。具体而言,该数据集包含约60,000张32x32像素的彩色图像,分布在10个类别中,其中训练集样本数量少于50,000,测试集包含10,000张图像,每类1,000张。通过调整类别样本数量,数据集模拟了现实世界中常见的类别不平衡问题,为研究长尾分布下的图像分类任务提供了理想的实验平台。
特点
CIFAR-10-LT数据集的主要特点在于其长尾分布特性,即类别样本数量呈指数级递减,从而模拟了现实世界中的类别不平衡现象。此外,数据集保留了CIFAR-10的原始图像特征,包括32x32像素的彩色图像和10个类别标签,确保了图像分类任务的多样性和挑战性。数据集的结构清晰,包含训练集和测试集,且每个样本均附带明确的类别标签,便于模型训练和评估。
使用方法
CIFAR-10-LT数据集适用于图像分类任务,尤其是针对长尾分布问题的研究。用户可以通过加载数据集的训练集和测试集,分别用于模型训练和性能评估。数据集提供了图像和对应的类别标签,用户可以直接使用这些数据进行模型训练,并通过测试集验证模型的泛化能力。此外,数据集支持多种图像处理库,用户可以根据需求对图像进行预处理或增强,以进一步提升模型的分类性能。
背景与挑战
背景概述
CIFAR-10-LT数据集是基于CIFAR-10数据集的扩展,由Alex Krizhevsky于2009年创建,旨在研究长尾分布问题。该数据集包含近60,000张32x32像素的彩色图像,分为10个类别,每个类别的样本数量呈指数递减,分别以10和100为因子。数据集包括10,000张测试图像,每类1,000张,以及少于50,000张训练图像。CIFAR-10-LT的提出,为图像分类领域中的长尾分布问题提供了重要的研究资源,推动了相关算法的发展。
当前挑战
CIFAR-10-LT数据集的主要挑战在于其长尾分布特性,即少数类别拥有大量样本,而多数类别样本稀少,这使得模型在处理不平衡数据时面临困难。构建过程中,如何确保数据集的多样性和代表性,同时维持类别间的平衡,也是一项技术难题。此外,由于数据集的图像分辨率较低,模型在提取有效特征时可能受到限制,进一步增加了分类任务的复杂性。
常用场景
经典使用场景
CIFAR-10-LT数据集的经典使用场景主要集中在图像分类任务中,特别是在处理长尾分布问题上。该数据集通过模拟类别不平衡的情况,使得研究者能够探索和优化在类别分布不均条件下的分类模型性能。其独特的数据分布特性为研究长尾学习算法提供了理想的实验平台。
实际应用
在实际应用中,CIFAR-10-LT数据集的类别不平衡特性使其在多个领域具有广泛的应用潜力。例如,在医疗诊断中,罕见疾病的识别需要处理类别不平衡问题;在安全监控中,特定事件的检测同样面临类似挑战。通过使用该数据集训练的模型,可以有效提升这些领域中少数类别的识别准确率。
衍生相关工作
基于CIFAR-10-LT数据集,研究者们开发了多种针对长尾分布问题的解决方案,如基于有效样本数的类别平衡损失函数和自适应重采样策略。这些工作不仅在学术界引起了广泛关注,还在多个国际会议和期刊上发表,推动了长尾学习领域的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

LendingClub Loan Data

Loan & Rejects (2007 to 2019Q3)

kaggle 收录

长江干流实时水位观测数据集(2024年)

该数据集为长江干流主要水文站实时水位观测数据集,包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。 该数据集包含3个excel表格文件,长江干流站点.xls,逐日水位.xlsx,逐小时水位.xlsx。

国家地球系统科学数据中心 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

LFW (Labeled Faces in the Wild)

Labeled Faces in the Wild,是一个人脸照片数据库,旨在研究无约束的人脸识别问题。该数据集包含从网络收集的超过 13,000 张人脸图像。每张脸都标有图中人物的名字。照片中的 1680 人在数据集中有两张或更多张不同的照片。这些人脸的唯一限制是它们是由 Viola-Jones 人脸检测器检测到的。更多细节可以在下面的技术报告中找到。

OpenDataLab 收录