alexey-zhavoronkin/CINIC10

Name: alexey-zhavoronkin/CINIC10
Creator: alexey-zhavoronkin
Published: 2024-06-14 09:21:34
License: 暂无描述

Hugging Face2024-06-14 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/alexey-zhavoronkin/CINIC10

下载链接

链接失效反馈

官方服务：

资源简介：

--- task_categories: - image-classification size_categories: - 100K<n<1M --- [CINIC10](https://github.com/BayesWatch/cinic-10) dataset with interface of [CIFAR10](https://github.com/pytorch/vision/blob/main/torchvision/datasets/cifar.py). It is faster than the common CINIC10 due to the fact that all images are loaded into RAM while initing dataset instance. You should save `cinic10.py` from this repo in local directory. And then import the CINIC10 class from it: ``` import torchvision import torch from torchvision transforms from cinic10 import CINIC10 data_mean = [0.47889522, 0.47227842, 0.43047404] data_std = [0.24205776, 0.23828046, 0.25874835] transform_train = transforms.Compose([ transforms.RandomCrop(32, padding=4), transforms.Resize(32), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize(data_mean, data_std), ]) transform_test = transforms.Compose([ transforms.Resize(32), transforms.ToTensor(), transforms.Normalize(data_mean, data_std), ]) batch_size = 64 num_workers = 4 trainset = CINIC10(root='./data', train=True, download=True, transform=transform_train) trainloader = torch.utils.data.DataLoader(trainset, batch_size=batch_size, shuffle=True, num_workers=num_workers) testset = CINIC10(root='./data', train=False, download=True, transform=transform_test) testloader = torch.utils.data.DataLoader(testset, batch_size=batch_size, shuffle=False, num_workers=num_workers) ```

任务类别： - 图像分类样本规模类别： - 10万 < 样本数 < 100万本数据集为适配[CIFAR10](https://github.com/pytorch/vision/blob/main/torchvision/datasets/cifar.py) 接口规范的[CINIC10](https://github.com/BayesWatch/cinic-10) 数据集。相较于通用版CINIC10数据集，本数据集加载效率更优，究其原因在于其在初始化数据集实例时，即已将全部图像加载至随机存取存储器（RAM）中。需将该仓库中的`cinic10.py`保存至本地目录，随后从中导入CINIC10类： import torchvision import torch from torchvision transforms from cinic10 import CINIC10 data_mean = [0.47889522, 0.47227842, 0.43047404] data_std = [0.24205776, 0.23828046, 0.25874835] transform_train = transforms.Compose([ transforms.RandomCrop(32, padding=4), transforms.Resize(32), transforms.RandomHorizontalFlip(), transforms.ToTensor(), transforms.Normalize(data_mean, data_std), ]) transform_test = transforms.Compose([ transforms.Resize(32), transforms.ToTensor(), transforms.Normalize(data_mean, data_std), ]) batch_size = 64 num_workers = 4 trainset = CINIC10(root='./data', train=True, download=True, transform=transform_train) trainloader = torch.utils.data.DataLoader(trainset, batch_size=batch_size, shuffle=True, num_workers=num_workers) testset = CINIC10(root='./data', train=False, download=True, transform=transform_test) testloader = torch.utils.data.DataLoader(testset, batch_size=batch_size, shuffle=False, num_workers=num_workers)

提供机构：

alexey-zhavoronkin

原始信息汇总

数据集概述

任务类别

图像分类

数据集大小

100K<n<1M

数据集名称

CINIC10

数据集特点

相比普通CINIC10数据集，此版本在初始化数据集实例时将所有图像加载到RAM中，因此加载速度更快。

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，图像分类数据集的构建常需兼顾规模与多样性。CINIC10数据集巧妙融合了CIFAR-10与ImageNet的资源，通过从ImageNet中精心筛选与CIFAR-10类别相匹配的图像，构建了一个包含约27万张彩色图像的中等规模数据集。其构建过程注重类别平衡与图像质量，所有图像均统一调整为32x32像素的分辨率，确保了与CIFAR-10在格式上的一致性，为跨数据集研究提供了便利。

特点

该数据集的核心特点在于其作为CIFAR-10的有效扩展，显著增大了数据规模，同时保持了与原始CIFAR-10相同的10个类别标签。其图像内容源于两个不同源数据集，这自然引入了更丰富的视觉特征和域间差异，为模型鲁棒性研究提供了天然素材。技术实现上，该版本通过预加载图像至内存的优化策略，大幅提升了数据读取效率，使得模型训练过程更为流畅高效。

使用方法

使用该数据集时，研究者可借助其提供的专用Python类进行便捷加载，其接口设计与PyTorch的TorchVision库高度兼容。典型流程包括定义数据标准化参数、构建训练与测试的数据变换管道，继而实例化数据集对象并封装为DataLoader。这种设计允许用户无缝集成到现有的PyTorch训练框架中，进行图像分类模型的训练、验证与测试，尤其适合用于探索模型在扩展数据上的泛化性能与域适应能力。

背景与挑战

背景概述

CINIC10数据集由BayesWatch研究团队于2018年创建，旨在弥合CIFAR-10与ImageNet之间的规模与复杂度鸿沟。该数据集作为图像分类领域的重要补充资源，通过整合CIFAR-10与ImageNet的子集，构建了一个包含约27万张图像的中等规模基准。其核心研究问题聚焦于在有限计算资源下，探索模型从简洁数据集向复杂真实场景的泛化能力。CINIC10的出现推动了轻量级神经网络架构与高效训练策略的发展，为计算机视觉社区提供了评估模型鲁棒性与可扩展性的关键平台。

当前挑战

在领域问题层面，CINIC10致力于应对图像分类中模型泛化能力不足的挑战，尤其针对跨域特征学习与噪声干扰下的识别稳定性。数据集中混合了精炼标注数据与真实场景图像，要求算法同时处理清晰界定类别与复杂背景干扰，这对传统卷积神经网络的表征学习提出了更高要求。构建过程中的挑战主要源于数据源的异构性：需协调CIFAR-10的标准化工标注体系与ImageNet的多样化视觉特征，通过严格的图像筛选与尺寸标准化流程，确保类别平衡与空间一致性，同时维持数据增广过程中的语义完整性。

常用场景

经典使用场景

在计算机视觉领域，CINIC10数据集常被用于图像分类任务的基准测试与模型验证。该数据集融合了CIFAR-10与ImageNet的风格，提供了更为丰富的图像样本，使得研究者能够在统一的框架下评估卷积神经网络等模型的泛化能力与鲁棒性。通过其标准化的训练与测试划分，CINIC10成为衡量算法在复杂视觉场景中表现的重要工具，尤其在探索数据增强与正则化技术方面展现出独特价值。

衍生相关工作

围绕CINIC10数据集，学术界衍生了一系列经典研究工作，包括高效卷积架构的设计、自监督预训练策略的探索以及数据增强技术的创新。例如，部分研究利用该数据集验证了知识蒸馏方法在跨域场景下的有效性，另一些工作则将其作为评估生成对抗网络合成图像质量的基准。这些成果进一步丰富了图像分类领域的理论体系与技术栈。

数据集最近研究