ufldl-stanford/svhn|图像识别数据集|对象检测数据集
收藏数据集卡片:Street View House Numbers
数据集描述
数据集摘要
Street View House Numbers (SVHN) 是一个真实世界的图像数据集,用于开发机器学习和对象识别算法,对数据预处理和格式要求较低。该数据集类似于 MNIST,但包含更多的标记数据(超过 600,000 张数字图像),并且来自一个更困难、未解决的现实世界问题(在自然场景图像中识别数字和号码)。SVHN 数据集来自 Google Street View 图像中的门牌号码。数据集有两种格式:
- 带有字符级别边界框的原始图像。
- 以单个字符为中心的类似 MNIST 的 32x32 图像(许多图像在侧面包含一些干扰物)。
支持的任务和排行榜
object-detection:该数据集可用于训练数字检测模型。image-classification:该数据集可用于训练图像分类模型,任务是预测图像上的正确数字。该任务的排行榜可在 Papers with Code 上查看。
语言
英语
数据集结构
数据实例
full_numbers
原始的、可变分辨率、彩色门牌号码图像,带有字符级别边界框。
json { "image": "<PIL.PngImagePlugin.PngImageFile image mode=RGB size=98x48 at 0x259E3F01780>", "digits": { "bbox": [ [36, 7, 13, 32], [50, 7, 12, 32] ], "label": [6, 9] } }
cropped_digits
以 MNIST 格式表示的字符级别真实标签。所有数字已调整为 32x32 像素的固定分辨率。原始字符边界框在适当维度上扩展为方形窗口,以便将它们调整为 32x32 像素不会引入宽高比失真。尽管如此,这种预处理会在感兴趣数字的侧面引入一些干扰数字。
json { "image": "<PIL.PngImagePlugin.PngImageFile image mode=RGB size=32x32 at 0x25A89494780>", "label": 1 }
数据字段
full_numbers
image:包含图像的PIL.Image.Image对象。注意,访问图像列时,图像文件会自动解码。解码大量图像文件可能需要大量时间。因此,应始终先查询样本索引,再查询"image"列,即dataset[0]["image"]应优先于dataset["image"][0]。digits:包含数字边界框和标签的字典bbox:对应于图像上存在的数字的边界框列表(coco 格式)。label:表示数字的 0 到 9 之间的整数列表。
cropped_digits
image:包含图像的PIL.Image.Image对象。注意,访问图像列时,图像文件会自动解码。解码大量图像文件可能需要大量时间。因此,应始终先查询样本索引,再查询"image"列,即dataset[0]["image"]应优先于dataset["image"][0]。digit:表示数字的 0 到 9 之间的整数。
数据分割
full_numbers
数据分为训练集、测试集和额外集。训练集包含 33402 张图像,测试集包含 13068 张图像,额外集包含 202353 张图像。
cropped_digits
数据分为训练集、测试集和额外集。训练集包含 73257 张图像,测试集包含 26032 张图像,额外集包含 531131 张图像。
额外集可作为额外的训练数据。额外集的获取方式与训练集和测试集类似,但提高了检测阈值,以生成大量标记数据。因此,SVHN 额外子集偏向于较容易的检测,比 SVHN 训练集/测试集更容易。
数据集创建
策划理由
从论文中引用:
如前所述,受人尊敬的 MNIST 数据集一直是研究人员构建更好学习系统的目标,其基准性能可以预期转化为现实应用的改进性能。然而,计算机现在在这个问题上已经达到了几乎人类水平的性能——这是机器学习和计算机视觉进步的证明。我们提供的 Street View House Numbers (SVHN) 数字数据库可以看作类似于 MNIST(例如,图像是小裁剪字符),但 SVHN 数据集包含更多的标记数据,并且来自一个更困难、未解决的现实世界问题。在这里,人类性能和最先进的特征表示之间的差距是显著的。向前看,我们期望这个数据集可能为现代特征学习算法发挥类似的作用:它提供了一个新的和困难的基准,其中性能的提高可以预期转化为现实应用的实际收益。
源数据
初始数据收集和规范化
从论文中引用:
SVHN 数据集是通过自动算法和 Amazon Mechanical Turk (AMT) 框架的组合从大量 Street View 图像中获取的,用于定位和转录单个数字。我们从多个国家的城市地区下载了大量图像。
源语言生产者
[更多信息需要]
注释
注释过程
从论文中引用:
从这些随机选择的图像中,使用专用滑动窗口门牌号码检测器提取门牌号码补丁,使用检测器置信度的低阈值以获得多样化的、无偏的门牌号码标志数据集。这些低精度检测由 AMT 工人筛选和转录。
注释者
AMT 工人。
个人和敏感信息
[更多信息需要]
使用数据的考虑
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
Yuval Netzer, Tao Wang, Adam Coates, Alessandro Bissacco, Bo Wu 和 Andrew Y. Ng
许可信息
仅限非商业使用。
引用信息
bibtex @article{netzer2011reading, title={Reading digits in natural images with unsupervised feature learning}, author={Netzer, Yuval and Wang, Tao and Coates, Adam and Bissacco, Alessandro and Wu, Bo and Ng, Andrew Y}, year={2011} }
贡献
感谢 @mariosasko 添加此数据集。

