five

tomas-gajarsky/cifar10-lt|图像分类数据集|长尾分布数据集

收藏
hugging_face2023-12-10 更新2024-03-04 收录
图像分类
长尾分布
下载链接:
https://hf-mirror.com/datasets/tomas-gajarsky/cifar10-lt
下载链接
链接失效反馈
资源简介:
CIFAR-10-LT不平衡数据集包含少于60,000张32x32像素的彩色图像,分布在10个不同的类别中。每个类别的样本数量以10和100的倍数指数级减少。数据集包括10,000张测试图像,每类1,000张,以及少于50,000张训练图像。每张图像都有一个标签。数据集支持图像分类任务,并且有一个相关的排行榜。数据集的语言为英语,数据字段包括图像和标签,数据分割包括训练集和测试集。数据集遵循Apache License 2.0许可,并提供了引用信息。

CIFAR-10-LT不平衡数据集包含少于60,000张32x32像素的彩色图像,分布在10个不同的类别中。每个类别的样本数量以10和100的倍数指数级减少。数据集包括10,000张测试图像,每类1,000张,以及少于50,000张训练图像。每张图像都有一个标签。数据集支持图像分类任务,并且有一个相关的排行榜。数据集的语言为英语,数据字段包括图像和标签,数据分割包括训练集和测试集。数据集遵循Apache License 2.0许可,并提供了引用信息。
提供机构:
tomas-gajarsky
原始信息汇总

数据集概述

  • 名称: Cifar10-LT
  • 别名: CIFAR-10-LT (Long Tail)
  • 语言: 英语
  • 许可证: Apache-2.0
  • 多语言性: 单语种
  • 大小: 10K<n<100K
  • 源数据集: cifar10
  • 任务类别: 图像分类
  • 数据集信息:
    • 特征:
      • img: 图像数据,类型为image
      • label: 类别标签,类型为class_label,包含10个类别(airplane, automobile, bird, cat, deer, dog, frog, horse, ship, truck)
    • 配置名称: cifar10
    • 分割:
      • train: 训练集,少于50000个样本
      • test: 测试集,10000个样本,总字节数22772838,每个类别1000个样本
  • 下载大小: 170498071字节

数据集描述

  • 概要: Cifar10-LT是一个包含不到60,000张32x32像素彩色图像的不平衡数据集,分布在10个不同的类别中。每个类别的样本数量呈指数级减少,因子为10和100。数据集包括10,000张测试图像,每个类别1000张,以及少于50,000张训练图像。每张图像都有一个标签。
  • 支持的任务: 图像分类
  • 语言: 英语

数据集结构

  • 数据实例: 示例数据包括图像和标签
  • 数据字段:
    • img: 32x32像素的图像,类型为PIL.Image.Image
    • label: 类别标签,范围0-9,对应10个类别
  • 数据分割:
    • train: 训练集,少于50000个样本
    • test: 测试集,10000个样本

许可证信息

Apache License 2.0

引用信息

@TECHREPORT{Krizhevsky09learningmultiple, author = {Alex Krizhevsky}, title = {Learning multiple layers of features from tiny images}, institution = {}, year = {2009} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
CIFAR-10-LT数据集的构建基于原始CIFAR-10数据集,通过引入长尾分布特性,使得每个类别的样本数量呈指数级递减。具体而言,该数据集包含约60,000张32x32像素的彩色图像,分布在10个类别中,其中训练集样本数量少于50,000,测试集包含10,000张图像,每类1,000张。通过调整类别样本数量,数据集模拟了现实世界中常见的类别不平衡问题,为研究长尾分布下的图像分类任务提供了理想的实验平台。
特点
CIFAR-10-LT数据集的主要特点在于其长尾分布特性,即类别样本数量呈指数级递减,从而模拟了现实世界中的类别不平衡现象。此外,数据集保留了CIFAR-10的原始图像特征,包括32x32像素的彩色图像和10个类别标签,确保了图像分类任务的多样性和挑战性。数据集的结构清晰,包含训练集和测试集,且每个样本均附带明确的类别标签,便于模型训练和评估。
使用方法
CIFAR-10-LT数据集适用于图像分类任务,尤其是针对长尾分布问题的研究。用户可以通过加载数据集的训练集和测试集,分别用于模型训练和性能评估。数据集提供了图像和对应的类别标签,用户可以直接使用这些数据进行模型训练,并通过测试集验证模型的泛化能力。此外,数据集支持多种图像处理库,用户可以根据需求对图像进行预处理或增强,以进一步提升模型的分类性能。
背景与挑战
背景概述
CIFAR-10-LT数据集是基于CIFAR-10数据集的扩展,由Alex Krizhevsky于2009年创建,旨在研究长尾分布问题。该数据集包含近60,000张32x32像素的彩色图像,分为10个类别,每个类别的样本数量呈指数递减,分别以10和100为因子。数据集包括10,000张测试图像,每类1,000张,以及少于50,000张训练图像。CIFAR-10-LT的提出,为图像分类领域中的长尾分布问题提供了重要的研究资源,推动了相关算法的发展。
当前挑战
CIFAR-10-LT数据集的主要挑战在于其长尾分布特性,即少数类别拥有大量样本,而多数类别样本稀少,这使得模型在处理不平衡数据时面临困难。构建过程中,如何确保数据集的多样性和代表性,同时维持类别间的平衡,也是一项技术难题。此外,由于数据集的图像分辨率较低,模型在提取有效特征时可能受到限制,进一步增加了分类任务的复杂性。
常用场景
经典使用场景
CIFAR-10-LT数据集的经典使用场景主要集中在图像分类任务中,特别是在处理长尾分布问题上。该数据集通过模拟类别不平衡的情况,使得研究者能够探索和优化在类别分布不均条件下的分类模型性能。其独特的数据分布特性为研究长尾学习算法提供了理想的实验平台。
实际应用
在实际应用中,CIFAR-10-LT数据集的类别不平衡特性使其在多个领域具有广泛的应用潜力。例如,在医疗诊断中,罕见疾病的识别需要处理类别不平衡问题;在安全监控中,特定事件的检测同样面临类似挑战。通过使用该数据集训练的模型,可以有效提升这些领域中少数类别的识别准确率。
衍生相关工作
基于CIFAR-10-LT数据集,研究者们开发了多种针对长尾分布问题的解决方案,如基于有效样本数的类别平衡损失函数和自适应重采样策略。这些工作不仅在学术界引起了广泛关注,还在多个国际会议和期刊上发表,推动了长尾学习领域的研究进展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国高考录取分数线数据

  高考录取分数线,是指普通高等学校招生全国统一考试录取分数线。该分数线,每年高考结束后,由省级教育招生主管部门统计后公布。高考录取分数线分为本科线和专科线。全国各个地方的录取线分科类、分批次确定,科类一般分为文科类、理科类、音乐类(文、理)、美术类(文、理)、体育类等,每一科类又各分为提前批、第一批、第二批等等。  CnOpenData推出中国高考录取分数线数据,从批次、学校、专业等三方面汇总高考录取情况,涵盖生源地、学校所在地、年份、分类、批次、分科、分数线、学校、专业、录取人数、最高/低分等字段,为相关研究提供优质的数据资源。

CnOpenData 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

Project Gutenberg

Project Gutenberg是一个提供免费电子书的数据集,包含超过60,000本免费电子书,涵盖了文学、历史、科学等多个领域。这些电子书主要以公共领域作品为主,用户可以自由下载和使用。

www.gutenberg.org 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

马达加斯加岛 – 世界地理数据大百科辞条

马达加斯加岛在非洲的东南部,位于11o56′59″S - 25o36′25″S及43o11′18″E - 50o29′36″E之间。通过莫桑比克海峡与位于非洲大陆的莫桑比克相望,最近距离为415千米。临近的岛屿分别为西北部的科摩罗群岛、北部的塞舌尔群岛、东部的毛里求斯岛和留尼汪岛等。在google earth 2015年遥感影像基础上研发的马达加斯加海岸线数据集表明,马达加斯加岛面积591,128.68平方千米,其中马达加斯加本岛面积589,015.06平方千米,周边小岛面积为2,113.62平方千米。马达加斯加本岛是非洲第一大岛,是仅次于格陵兰、新几内亚岛和加里曼丹岛的世界第四大岛屿。岛的形状呈南北走向狭长纺锤形,南北向长1,572千米;南北窄,中部宽,最宽处达574千米。海岸线总长16,309.27千米, 其中马达加斯加本岛海岸线长10,899.03千米,周边小岛海岸线长5,410.24千米。马达加斯加岛属于马达加斯加共和国。全国共划分22个区,119个县。22个区分别为:阿那拉芒加区,第亚那区,上马齐亚特拉区,博爱尼区,阿齐那那那区,阿齐莫-安德列发那区,萨瓦区,伊达西区,法基南卡拉塔区,邦古拉法区,索非亚区,贝齐博卡区,梅拉基区,阿拉奥特拉-曼古罗区,阿那拉兰基罗富区,阿莫罗尼马尼亚区,法土法韦-非图韦那尼区,阿齐莫-阿齐那那那区,伊霍罗贝区,美那贝区,安德罗伊区和阿诺西区。首都安塔那那利佛(Antananarivo)位于岛屿的中东部。马达加斯加岛是由火山及喀斯特地貌为主。贯穿海岛的是巨大火山岩山体-察腊塔纳山,其主峰马鲁穆库特鲁山(Maromokotro)海拔2,876米,是全国最高峰。马达加斯加自然景观垂直地带性分异显著,是热带雨林和热带草原广布的地区。岛上大约有20多万种动植物,其中包括马达加斯加特有物种狐猴(Lemur catta)、马达加斯加国树猴面包树(Adansonia digitata L.)等。

国家对地观测科学数据中心 收录