Voxel51/StreetViewHouseNumbers

Name: Voxel51/StreetViewHouseNumbers
Creator: Voxel51
Published: 2024-07-04 17:10:50
License: 暂无描述

Hugging Face2024-07-04 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/Voxel51/StreetViewHouseNumbers

下载链接

链接失效反馈

官方服务：

资源简介：

Street View House Numbers (SVHN) 数据集是一个用于开发机器学习和物体识别算法的大型真实世界图像数据集。它包含超过60万个从Google街景中拍摄的带标签的门牌号码图像。这些图像被裁剪成32x32像素的固定分辨率，中心围绕单个字符，可能包含一些侧面的干扰物。SVHN与MNIST数据集类似，但包含了更多的带标签数据，并解决了一个更困难、未解决的真实世界问题，即在自然场景图像中识别数字和号码。该数据集以原始图像形式提供，包含字符级别的边界框。这是一个FiftyOne数据集，包含33,402个样本。该数据集由Yuval Netzer、Tao Wang、Adam Coates、Alessandro Bissacco、Bo Wu和Andrew Y. Ng策划，由Google Inc.和斯坦福大学资助，并由未指定来源共享。该数据集的许可证仅限非商业用途。

The Street View House Numbers (SVHN) dataset is a large real-world image dataset used for developing machine learning and object recognition algorithms. It contains over 600,000 labeled images of house numbers taken from Google Street View. The images are cropped to a fixed resolution of 32x32 pixels, centered around a single character but may contain some distractors at the sides. SVHN is similar to the MNIST dataset but incorporates significantly more labeled data and comes from a harder, unsolved, real-world problem of recognizing digits and numbers in natural scene images. The dataset here is provided as original images with character level bounding boxes. This is a FiftyOne dataset with 33,402 samples. The dataset is curated by Yuval Netzer, Tao Wang, Adam Coates, Alessandro Bissacco, Bo Wu, and Andrew Y. Ng, funded by Google Inc. and Stanford University, and shared by an unspecified source. The license is for non-commercial use only.

提供机构：

Voxel51

原始信息汇总

Street View House Numbers 数据集概述

基本信息

数据集名称: Street View House Numbers (SVHN)
样本数量: 33402
语言: 英语 (en)
任务类别: 目标检测 (object-detection)
标签创建者: 无
任务ID: 无
标签: fiftyone, image, object-detection

数据集描述

数据集来源: 由Google Street View采集的真实世界图像数据集。
图像数量: 超过600,000张。
图像分辨率: 32x32像素，中心为单个字符，可能包含侧边干扰。
数据集特点: 类似于MNIST数据集，但包含更多标签数据，且来自更难的、未解决的现实世界问题，即在自然场景图像中识别数字。
数据格式: 原始图像，包含字符级别的边界框。

数据集详情

创建者: Yuval Netzer, Tao Wang, Adam Coates, Alessandro Bissacco, Bo Wu, Andrew Y. Ng
资助方: Google Inc., Stanford University
许可证: 仅限非商业用途
联系邮箱: streetviewhousenumbers@gmail.com

数据集来源

数据集仓库: http://ufldl.stanford.edu/housenumbers
相关论文: http://ufldl.stanford.edu/housenumbers/nips2011_housenumbers.pdf

引用

bibtex @inproceedings{netzer2011reading, title={Reading digits in natural images with unsupervised feature learning}, author={Netzer, Yuval and Wang, Tao and Coates, Adam and Bissacco, Alessandro and Wu, Bo and Ng, Andrew Y}, booktitle={NIPS workshop on deep learning and unsupervised feature learning}, volume={2011}, number={2}, pages={5}, year={2011} }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，真实场景下的数字识别一直是极具挑战性的任务。Street View House Numbers（SVHN）数据集的构建源于对自然图像中数字识别问题的深入研究。该数据集通过从Google街景图像中提取包含门牌号的图像片段，并经过精心裁剪与标注，最终形成了超过60万张标注图像。每张图像均被统一调整为32×32像素的分辨率，并围绕单个字符进行中心化处理，同时保留了图像边缘可能存在的干扰元素，以模拟真实场景的复杂性。数据集的标注工作涵盖了字符级别的边界框，确保了标注的精确性与实用性。

特点

作为自然场景数字识别的代表性数据集，SVHN展现了多方面的显著特点。其图像均源自真实世界的街景拍摄，包含了光照变化、视角差异及背景干扰等复杂因素，与合成数据集形成鲜明对比。数据规模庞大，标注信息丰富，不仅提供了字符级别的边界框，还保持了图像的原始分辨率与色彩信息。相较于经典的MNIST数据集，SVHN在任务难度和现实应用价值上更为突出，为模型在复杂环境下的泛化能力评估提供了可靠基准。数据集的结构设计兼顾了学术研究与工程实践的需求，支持高效的加载与可视化操作。

使用方法

针对SVHN数据集的使用，研究者可借助FiftyOne工具库实现便捷的加载与交互。首先通过pip安装FiftyOne库，随后在Python环境中导入相应模块并调用load_from_hub函数，指定数据集名称即可完成加载过程。该函数支持灵活的参数配置，如最大样本数限制，以适应不同规模的计算需求。加载完成后，用户可进一步启动交互式应用界面，直观浏览图像样本及其标注信息，辅助进行数据探索与模型验证。数据集的原始图像与标注格式均保持开放，便于集成到各类机器学习框架中，用于目标检测与字符识别等任务的训练与评估。

背景与挑战

背景概述

Street View House Numbers（SVHN）数据集由Yuval Netzer、Tao Wang、Adam Coates等研究人员于2011年构建，并得到Google Inc.与Stanford University的支持。该数据集旨在解决自然场景图像中数字识别这一核心研究问题，其包含超过60万张从Google街景中提取的带标签门牌号图像，每张图像均被裁剪为32x32像素并包含字符级边界框标注。相较于经典的MNIST数据集，SVHN源自真实世界场景，图像背景复杂且常伴有干扰物，为机器学习与物体识别算法提供了更具挑战性的基准测试平台，极大地推动了计算机视觉领域在自然场景文本识别方向的研究进展。

当前挑战

SVHN数据集所针对的领域挑战在于自然场景中数字的鲁棒识别，这要求模型能够有效处理光照变化、视角扭曲、部分遮挡以及复杂背景干扰等现实世界复杂性。在构建过程中，研究人员面临的主要挑战包括从海量街景图像中精准定位并裁剪出门牌号区域，确保标注的字符级边界框在尺寸和位置上的准确性，以及处理图像中可能存在的多数字序列与无关视觉元素的干扰，这些因素共同增加了数据清洗与标注的难度。

常用场景

经典使用场景

在计算机视觉领域，Street View House Numbers（SVHN）数据集作为经典的真实世界图像资源，常被用于数字识别与物体检测算法的基准测试。其图像源自谷歌街景，包含超过60万张带有标签的门牌号图像，这些图像经过裁剪至32x32像素，并保留了自然场景中的复杂背景与干扰元素。研究者通常利用该数据集训练卷积神经网络等模型，评估其在嘈杂环境下的数字分类与定位性能，为算法鲁棒性提供实证依据。

衍生相关工作

围绕SVHN数据集，学术界衍生了一系列经典研究工作。例如，Netzer等人于2011年发表的论文首次引入该数据集，探讨了无监督特征学习在自然图像数字识别中的应用。后续研究如Multi-digit Number Recognition from Street View Imagery则扩展了端到端识别框架。此外，许多目标检测模型（如YOLO、Faster R-CNN）也常以SVHN为基准，验证其在复杂场景中的多字符定位性能，推动了视觉算法在真实环境中的持续优化。

数据集最近研究