ufldl-stanford/svhn

Name: ufldl-stanford/svhn
Creator: ufldl-stanford
Published: 2024-08-08 05:58:52
License: 暂无描述

Hugging Face2024-08-08 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/ufldl-stanford/svhn

下载链接

链接失效反馈

官方服务：

资源简介：

SVHN是一个用于开发机器学习和对象识别算法的真实世界图像数据集，要求最少的数据预处理和格式化。它类似于MNIST数据集（例如，图像是小的裁剪数字），但包含了更多的标记数据（超过600,000张数字图像），并且来自一个更难的、未解决的现实世界问题（识别自然场景图像中的数字和号码）。SVHN数据集来源于Google街景图像中的门牌号码。数据集有两种格式：1. 带有字符级别边界框的原始图像；2. 类似MNIST的32x32像素图像，围绕单个字符居中（许多图像在侧面包含一些干扰物）。

SVHN is a real-world image dataset for developing machine learning and object recognition algorithms, requiring minimal data preprocessing and formatting. It is analogous to the MNIST dataset (e.g., images are small cropped digits), but contains more labeled data (over 600,000 digit images) and originates from a more challenging, unsolved real-world problem: recognizing digits and number sequences in natural scene images. The SVHN dataset is derived from street house numbers captured in Google Street View imagery. There are two formats for this dataset: 1. Raw images with character-level bounding boxes; 2. 32x32 pixel images similar to those in the MNIST dataset, centered around individual characters (many images contain some distracting elements on their sides).

提供机构：

ufldl-stanford

原始信息汇总

数据集卡片：Street View House Numbers

数据集描述

数据集摘要

Street View House Numbers (SVHN) 是一个真实世界的图像数据集，用于开发机器学习和对象识别算法，对数据预处理和格式要求较低。该数据集类似于 MNIST，但包含更多的标记数据（超过 600,000 张数字图像），并且来自一个更困难、未解决的现实世界问题（在自然场景图像中识别数字和号码）。SVHN 数据集来自 Google Street View 图像中的门牌号码。数据集有两种格式：

带有字符级别边界框的原始图像。
以单个字符为中心的类似 MNIST 的 32x32 图像（许多图像在侧面包含一些干扰物）。

支持的任务和排行榜

object-detection：该数据集可用于训练数字检测模型。
image-classification：该数据集可用于训练图像分类模型，任务是预测图像上的正确数字。该任务的排行榜可在 Papers with Code 上查看。

语言

英语

数据集结构

数据实例

full_numbers

原始的、可变分辨率、彩色门牌号码图像，带有字符级别边界框。

json { "image": "<PIL.PngImagePlugin.PngImageFile image mode=RGB size=98x48 at 0x259E3F01780>", "digits": { "bbox": [ [36, 7, 13, 32], [50, 7, 12, 32] ], "label": [6, 9] } }

cropped_digits

以 MNIST 格式表示的字符级别真实标签。所有数字已调整为 32x32 像素的固定分辨率。原始字符边界框在适当维度上扩展为方形窗口，以便将它们调整为 32x32 像素不会引入宽高比失真。尽管如此，这种预处理会在感兴趣数字的侧面引入一些干扰数字。

json { "image": "<PIL.PngImagePlugin.PngImageFile image mode=RGB size=32x32 at 0x25A89494780>", "label": 1 }

数据字段

full_numbers

image：包含图像的 PIL.Image.Image 对象。注意，访问图像列时，图像文件会自动解码。解码大量图像文件可能需要大量时间。因此，应始终先查询样本索引，再查询 "image" 列，即 dataset[0]["image"] 应优先于 dataset["image"][0]。
digits：包含数字边界框和标签的字典
- bbox：对应于图像上存在的数字的边界框列表（coco 格式）。
- label：表示数字的 0 到 9 之间的整数列表。

cropped_digits

image：包含图像的 PIL.Image.Image 对象。注意，访问图像列时，图像文件会自动解码。解码大量图像文件可能需要大量时间。因此，应始终先查询样本索引，再查询 "image" 列，即 dataset[0]["image"] 应优先于 dataset["image"][0]。
digit：表示数字的 0 到 9 之间的整数。

数据分割

full_numbers

数据分为训练集、测试集和额外集。训练集包含 33402 张图像，测试集包含 13068 张图像，额外集包含 202353 张图像。

cropped_digits

数据分为训练集、测试集和额外集。训练集包含 73257 张图像，测试集包含 26032 张图像，额外集包含 531131 张图像。

额外集可作为额外的训练数据。额外集的获取方式与训练集和测试集类似，但提高了检测阈值，以生成大量标记数据。因此，SVHN 额外子集偏向于较容易的检测，比 SVHN 训练集/测试集更容易。

数据集创建

策划理由

从论文中引用：

如前所述，受人尊敬的 MNIST 数据集一直是研究人员构建更好学习系统的目标，其基准性能可以预期转化为现实应用的改进性能。然而，计算机现在在这个问题上已经达到了几乎人类水平的性能——这是机器学习和计算机视觉进步的证明。我们提供的 Street View House Numbers (SVHN) 数字数据库可以看作类似于 MNIST（例如，图像是小裁剪字符），但 SVHN 数据集包含更多的标记数据，并且来自一个更困难、未解决的现实世界问题。在这里，人类性能和最先进的特征表示之间的差距是显著的。向前看，我们期望这个数据集可能为现代特征学习算法发挥类似的作用：它提供了一个新的和困难的基准，其中性能的提高可以预期转化为现实应用的实际收益。

源数据

初始数据收集和规范化

从论文中引用：

SVHN 数据集是通过自动算法和 Amazon Mechanical Turk (AMT) 框架的组合从大量 Street View 图像中获取的，用于定位和转录单个数字。我们从多个国家的城市地区下载了大量图像。

源语言生产者

[更多信息需要]

注释

注释过程

从论文中引用：

从这些随机选择的图像中，使用专用滑动窗口门牌号码检测器提取门牌号码补丁，使用检测器置信度的低阈值以获得多样化的、无偏的门牌号码标志数据集。这些低精度检测由 AMT 工人筛选和转录。

注释者

AMT 工人。

个人和敏感信息

[更多信息需要]

使用数据的考虑

数据集的社会影响

[更多信息需要]

偏见的讨论

[更多信息需要]

其他已知限制

[更多信息需要]

附加信息

数据集策展人

Yuval Netzer, Tao Wang, Adam Coates, Alessandro Bissacco, Bo Wu 和 Andrew Y. Ng

许可信息

仅限非商业使用。

引用信息

bibtex @article{netzer2011reading, title={Reading digits in natural images with unsupervised feature learning}, author={Netzer, Yuval and Wang, Tao and Coates, Adam and Bissacco, Alessandro and Wu, Bo and Ng, Andrew Y}, year={2011} }

贡献

感谢 @mariosasko 添加此数据集。

搜集汇总

数据集介绍

构建方式

SVHN数据集通过自动化算法与亚马逊土耳其机器人（AMT）框架相结合的方式，从大量街景图像中收集并标注单数字，构建出包含字符级边界框的原格式图像以及MNIST风格的32x32像素单字符中心图像两种格式。数据集分为训练集、测试集和额外集，其中额外集用于作为额外的训练数据，且相较于训练集和测试集，其检测难度较低。

特点

SVHN数据集的特点在于其数据来源的真实性，图像直接来源于街景，包含了超过60万张标注的数字图像，相较于MNIST数据集，其难度更高，更接近现实世界的问题。数据集提供了字符级边界框和标签，以及经过预处理的固定分辨率图像，适用于图像分类和对象检测任务。

使用方法

使用SVHN数据集时，用户可以根据具体任务需求选择原始图像格式或预处理后的图像格式。数据集提供了训练、测试和额外数据集，额外数据集可用于增强模型的训练。用户需遵守非商业使用的许可协议，并在使用时正确引用数据集的相关信息。

背景与挑战

背景概述

Street View House Numbers（SVHN）数据集，由斯坦福大学的研究团队于2011年创建，旨在为机器学习和对象识别算法的开发提供现实世界的图像数据集。该数据集的主要研究人员包括Yuval Netzer、Tao Wang、Adam Coates等，其核心研究问题是识别自然场景图像中的数字和数字。SVHN数据集来源于谷歌街景图像中的房屋号码，与MNIST数据集类似，但包含了更多的标记数据，并来源于一个更加困难、未解决的现实世界问题。该数据集在机器学习和计算机视觉领域具有重要的影响力，为现代特征学习算法提供了一个新的、难度较大的基准，性能的提升有望转化为现实应用中的实质性增益。

当前挑战

SVHN数据集在研究领域中解决的挑战主要包括图像分类和对象检测。构建过程中遇到的挑战包括：1）从现实世界图像中准确提取和标记数字，这涉及到使用自动化算法和亚马逊土耳其机器人（AMT）框架进行数据收集和转录；2）数据集的多样性和复杂性，由于图像来源于不同的国家和城市，存在光照、角度和遮挡等变化，为算法的泛化能力提出了挑战；3）数据预处理和格式化要求最小化，这对数据集的可用性和易用性提出了挑战。

常用场景

经典使用场景

在计算机视觉领域，SVHN数据集的经典使用场景主要集中于图像分类与对象检测。其独特的图像来源——街景中的门牌号码，为算法提供了极具挑战性的识别任务，从而成为评估模型性能的重要基准。研究者们利用该数据集训练模型，以实现对图像中数字的准确分类。

解决学术问题

SVHN数据集解决了传统MNIST数据集在现实场景图像识别中的局限性问题。由于SVHN图像包含更多背景干扰和复杂光照条件，它对模型的泛化能力提出了更高的要求。该数据集帮助学术界识别和攻克了在实际应用中遇到的数字识别准确率低、模型鲁棒性不足等问题，对提升模型在真实世界图像上的表现具有显著意义。

衍生相关工作

基于SVHN数据集的研究衍生出了许多经典工作，如改进的特征学习方法、更有效的图像预处理技术以及针对特定场景的定制化模型架构。这些相关工作不仅推动了数字识别技术的进步，也为计算机视觉领域其他方面的研究提供了有益的启示和借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集