CleanSTL-10

Hugging Face2025-06-06 更新2025-06-07 收录

下载链接：

https://huggingface.co/datasets/Shu1L0n9/CleanSTL-10

下载链接

链接失效反馈

官方服务：

资源简介：

STL-10 Cleaned (Deduplicated Training Set)数据集是一个经过清理的STL-10数据集版本，其中移除了与测试集完全相同的图片，以确保训练集和测试集的清晰分离。数据集包含清理后的训练集和原始的STL-10测试集，适用于图像分类、表示学习以及自监督学习等任务。

创建时间：

2025-06-05

原始信息汇总

数据集概述：STL-10 Cleaned (Deduplicated Training Set)

数据集描述

来源：基于STL-10数据集的修改版本
主要修改：通过SHA256哈希去除了训练集中与测试集完全相同的图像
目标：提供更清晰的训练/测试数据分离，提升模型评估可靠性

数据集内容

训练集：来自原始STL-10的5,000标注图像和92,455未标注图像，去除与测试集重复的图像
测试集：原始STL-10的8,000测试图像（未修改）
图像规格：96x96像素，PNG格式

数据集结构

数据实例

每个实例包含图像和对应标签
组织为train、test和unlabeled三个分割

数据字段

image (PIL.Image.Image)：图像对象
label (整数或ClassLabel)：
- 0-9：对应STL-10的10个类别
- -1：来自原始未标注训练集的图像
file_path (字符串)：图像文件相对路径

数据集创建

处理步骤

加载原始STL-10数据
计算测试集图像哈希值
合并训练集和未标注集
去除哈希匹配的重复图像
保存清理后的图像并生成元数据文件

使用场景

适用场景

监督图像分类（10个标注类别）
无监督/自监督表示学习
计算机视觉模型基准测试

不适用场景

需要保证训练/测试集无任何视觉相似性的应用（仅去除完全相同的图像）

限制与偏差

继承原始STL-10和ImageNet的特征和潜在偏差
固定分辨率96x96像素
仅去除字节完全相同的图像，不处理视觉相似图像
训练集样本数量减少（具体数量需验证）

引用信息

原始STL-10引用： bibtex @misc{yann2025vitsgmm, title={ViTSGMM: A Robust Semi-Supervised Image Recognition Network Using Sparse Labels}, author={Rui Yann and Xianglei Xing}, year={2025}, eprint={2506.03582}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.03582} }

许可信息

修改后的数据集：Apache License 2.0
原始STL-10图像：来自ImageNet，研究使用时需注意

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，数据集的纯净度对模型评估至关重要。CleanSTL-10数据集基于经典STL-10数据集，通过SHA256哈希算法对训练集和测试集进行字节级比对，剔除了训练集中与测试集完全重复的图像样本。该处理流程首先合并原始训练集的5000张标注图像和92455张未标注图像，随后计算测试集8000张图像的哈希值作为参照库，最终构建出无重复样本的纯净训练集，同时保留原始测试集作为验证基准。这种构建方式有效避免了数据泄露问题，为图像分类和表示学习任务提供了更可靠的评估环境。

特点

作为STL-10数据集的优化版本，CleanSTL-10最显著的特征在于其训练集与测试集的严格分离。所有图像保持96x96像素的PNG格式，包含10个标注类别及未标注数据，其中训练集通过哈希去重处理确保了样本独立性。数据集特别保留了原始未标注图像的-1标签标识，为半监督学习研究提供了便利。这种结构既继承了STL-10在图像多样性方面的优势，又通过数据净化提升了模型评估的严谨性，尤其适合需要精确衡量泛化能力的实验场景。

使用方法

该数据集可通过Hugging Face生态高效加载，推荐使用datasets库直接调用API获取标准化数据格式。用户需先通过huggingface-cli完成身份认证，即可按标准流程加载包含PIL图像对象和分类标签的数据结构。对于需要流式处理的场景，亦可选择WebDataset方案，通过Hugging Face Hub的文件系统接口获取分片存储的tar包数据。两种方式均支持训练集、测试集和未标注数据的分割加载，且自动处理图像解码与标签映射，研究者可根据计算框架偏好灵活选择接入方案。

背景与挑战

背景概述

CleanSTL-10数据集是基于STL-10数据集改进而来的一个去重版本，由斯坦福大学的Adam Coates、Honglak Lee和Andrew Y. Ng等研究人员于2010年首次提出。STL-10数据集最初旨在解决小样本学习和半监督学习中的图像分类问题，广泛应用于计算机视觉领域的研究。CleanSTL-10通过去除训练集中与测试集完全重复的图像，提升了数据集的纯净度，为模型评估提供了更可靠的基准。该数据集包含96x96像素的PNG格式图像，涵盖10个类别，适用于图像分类、表示学习和自监督学习等任务。

当前挑战

CleanSTL-10数据集在构建过程中面临的主要挑战包括：1) 数据去重过程中仅能识别字节级完全相同的图像，无法检测视觉相似但非完全相同的样本，可能导致潜在的训练-测试数据泄漏；2) 数据集继承了原始STL-10和ImageNet的固有偏差，如类别分布不均和图像分辨率固定等问题；3) 去重操作减少了训练样本数量，可能影响模型的训练效果，尤其是在数据稀缺的场景下。这些挑战对模型的泛化能力和评估结果的可靠性提出了更高要求。

常用场景

经典使用场景

在计算机视觉领域，CleanSTL-10数据集作为STL-10的净化版本，主要应用于图像分类任务的基准测试。其经典使用场景包括监督学习下的多类别图像识别，通过96x96像素的标准尺寸图像，研究者能够有效评估卷积神经网络等模型的分类性能。该数据集特别适合需要严格控制训练集与测试集交叉污染的严谨实验设计。

解决学术问题

该数据集通过SHA256哈希去重机制，解决了原始STL-10中训练集与测试集存在重复样本导致的评估偏差问题。这一改进显著提升了半监督学习、表示学习等研究场景下的实验可信度，为模型泛化能力评估提供了更纯净的数据基础。其去重处理方式也为数据泄露问题的研究提供了标准化解决方案。

衍生相关工作

该数据集的衍生研究包括SemiOccam等半监督学习框架的验证工作，其净化特性为稀疏标签条件下的模型鲁棒性研究提供了理想实验环境。多位学者基于该数据集开展了数据泄露对模型评估影响的量化分析，相关成果发表在计算机视觉顶级会议。去重方法论也被扩展应用于其他视觉数据集的净化处理。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集