StreetViewHouseNumbers

Hugging Face2024-07-04 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/Voxel51/StreetViewHouseNumbers

下载链接

链接失效反馈

官方服务：

资源简介：

Street View House Numbers (SVHN) 数据集是一个用于机器学习和物体识别算法开发的大型真实世界图像数据集。该数据集包含超过600,000张从Google Street View拍摄的房屋号码的标记图像。图像被裁剪为32x32像素的固定分辨率，中心围绕单个字符，但可能包含侧面的干扰物。SVHN与MNIST数据集相似，但包含更多的标记数据，并且来自一个更困难、未解决的真实世界问题，即在自然场景图像中识别数字和号码。数据集以原始图像形式提供，包含字符级别的边界框。

创建时间：

2024-07-04

原始信息汇总

数据集概述

基本信息

数据集名称: Street View House Numbers (SVHN)
语言: 英语
数据集大小: 10K<n<100K
任务类别: 目标检测
样本数量: 33402
标签创建者: 无
任务ID: 无
标签: fiftyone, image, object-detection

数据集描述

SVHN数据集是一个用于开发机器学习和目标识别算法的大型现实世界图像数据集。它包含超过600,000张从Google街景中拍摄的带标签的房屋号码图像。图像被裁剪为32x32像素的固定分辨率，中心围绕单个字符，但可能包含侧面的干扰物。

SVHN与MNIST数据集类似，但包含更多的带标签数据，并且来自一个更难、未解决的现实世界问题，即在自然场景图像中识别数字和号码。

该数据集以原始图像形式提供，包含字符级别的边界框。

数据集详情

数据集来源:
- 仓库: http://ufldl.stanford.edu/housenumbers
- 论文: http://ufldl.stanford.edu/housenumbers/nips2011_housenumbers.pdf
数据集创建者: Yuval Netzer, Tao Wang, Adam Coates, Alessandro Bissacco, Bo Wu, Andrew Y. Ng
资助机构: Google Inc., Stanford University
许可证: 仅限非商业用途
联系邮箱: streetviewhousenumbers@gmail.com

引用

bibtex @inproceedings{netzer2011reading, title={Reading digits in natural images with unsupervised feature learning}, author={Netzer, Yuval and Wang, Tao and Coates, Adam and Bissacco, Alessandro and Wu, Bo and Ng, Andrew Y}, booktitle={NIPS workshop on deep learning and unsupervised feature learning}, volume={2011}, number={2}, pages={5}, year={2011} }

搜集汇总

数据集介绍

构建方式

Street View House Numbers（SVHN）数据集是通过从Google街景图像中提取门牌号码构建的。该数据集包含了超过600,000张标注图像，每张图像均经过裁剪，固定为32x32像素的分辨率，并围绕单个字符进行中心化处理。尽管图像主要聚焦于单个字符，但边缘可能包含一些干扰元素。数据集的构建过程涉及从自然场景中提取数字，并为其标注字符级别的边界框，从而为机器学习和物体识别算法提供了丰富的训练素材。

特点

SVHN数据集以其大规模和真实性著称，特别适用于开发复杂的物体识别算法。与MNIST数据集相比，SVHN不仅提供了更多的标注数据，还引入了更具挑战性的自然场景图像识别问题。图像中的数字来源于真实的街景照片，包含了光照、角度、遮挡等多种复杂因素，使得该数据集在模拟现实世界场景时表现出色。此外，数据集中的每张图像都经过精确的字符级别标注，为研究者提供了详细的训练和验证基础。

使用方法

使用SVHN数据集时，首先需安装FiftyOne库，并通过Hugging Face Hub加载数据集。用户可以通过Python脚本导入FiftyOne库，并调用`fouh.load_from_hub`方法加载数据集。加载后，数据集可直接用于训练或验证机器学习模型。此外，FiftyOne提供了交互式应用程序，用户可以通过`fo.launch_app`方法启动应用，直观地浏览和分析数据集中的图像及其标注信息。这种灵活的使用方式使得SVHN数据集在研究和开发中具有广泛的应用潜力。

背景与挑战

背景概述

Street View House Numbers（SVHN）数据集由Yuval Netzer、Tao Wang、Adam Coates等研究人员于2011年创建，旨在解决自然场景图像中数字识别的复杂问题。该数据集由Google Inc.和斯坦福大学资助，包含超过60万张从Google街景中提取的房屋号码图像。这些图像经过裁剪，分辨率固定为32x32像素，通常围绕单个字符居中，但可能包含一些干扰物。SVHN数据集在机器学习和物体识别算法的开发中具有重要影响力，尤其是在处理真实世界图像中的数字识别任务时，相较于MNIST数据集，SVHN提供了更丰富的标注数据和更具挑战性的场景。

当前挑战

SVHN数据集的核心挑战在于其复杂的背景和多样的数字表现形式。首先，自然场景中的数字识别任务远比手写数字识别复杂，因为图像中可能包含光照变化、遮挡、扭曲以及背景干扰等因素。其次，数据集的构建过程中，研究人员需要从大量街景图像中提取并标注房屋号码，这一过程不仅耗时，还需要高精度的标注工具和方法。此外，SVHN数据集的图像分辨率较低，且部分图像可能包含多个数字或干扰字符，这进一步增加了模型训练的难度。因此，如何在复杂背景下准确识别数字，并有效处理低分辨率图像中的信息，是该数据集面临的主要挑战。

常用场景

经典使用场景

Street View House Numbers (SVHN) 数据集广泛应用于计算机视觉领域，特别是在数字识别和对象检测任务中。其经典使用场景包括训练和评估深度学习模型，尤其是卷积神经网络（CNN），以识别自然场景中的数字。由于SVHN数据集包含大量从Google街景中提取的真实世界图像，它能够有效模拟实际应用中的复杂环境，如图像噪声、光照变化和部分遮挡。

衍生相关工作

SVHN数据集催生了许多经典的研究工作，尤其是在深度学习领域。例如，基于SVHN的卷积神经网络模型在数字识别任务中取得了显著进展。此外，该数据集还被用于研究无监督学习和迁移学习，推动了相关算法的发展。许多研究团队利用SVHN数据集验证了新的特征提取方法和模型优化技术，进一步拓展了计算机视觉的应用边界。

数据集最近研究