法国街名标志数据集 (FSNS)

Name: 法国街名标志数据集 (FSNS)
Creator: 谷歌公司
Published: 2017-02-14 04:18:18
License: 暂无描述

arXiv2017-02-14 更新2024-06-21 收录

下载链接：

https://github.com/tensorflow/models/tree/master/street

下载链接

链接失效反馈

官方服务：

资源简介：

法国街名标志数据集（FSNS）是由谷歌公司创建的大型复杂数据集，包含超过一百万张从法国谷歌街景图像中裁剪的街名标志图片。每个图像包含同一街名标志的多个视图，所有图像都具有标准化、标题折叠的地面实况文本。FSNS数据集旨在通过训练深度网络解决街名提取问题，或探索单一复杂工程网络与多个解决子问题的子网络之间的设计权衡。该数据集适用于计算机视觉、机器学习和光学字符识别等领域，旨在提高户外图像中文字的检测和识别准确性。

The French Street Name Signs Dataset (FSNS) is a large-scale and complex dataset developed by Google. It contains over one million cropped street name sign images extracted from Google Street View imagery across France. Each image includes multiple views of the same street name sign, and all images are paired with standardized, headline-folded ground-truth text. The FSNS dataset is designed to solve street name extraction tasks through training deep neural networks, or to explore design trade-offs between a single complex engineering network and multiple sub-networks dedicated to solving individual sub-problems. This dataset is applicable to research fields including computer vision, machine learning, and optical character recognition, with the core goal of enhancing the accuracy of text detection and recognition in outdoor imagery.

提供机构：

谷歌公司

创建时间：

2017-02-14

搜集汇总

数据集介绍

构建方式

在计算机视觉与光学字符识别领域，构建大规模且标注精确的真实图像数据集始终面临挑战。法国街名标志数据集（FSNS）的构建过程体现了系统性工程思维：首先，利用街名标志检测器从法国谷歌街景图像中裁剪出标志区域，并记录其地理坐标；随后，通过空间聚类将同一地理位置的多个视图归集，形成包含至多四个视角的图像样本。标注环节融合了reCAPTCHA验证、OCR技术与人工转录，并经过多轮验证与纠错，确保标注质量。为保障数据集的泛化能力，样本按地理区块划分训练、验证与测试集，并剔除重复的街道名称，实现了文本内容与空间位置的双重独立性。

特点

FSNS数据集的核心特点在于其多视图结构与规范化标注。该数据集包含超过一百万张图像，每张图像水平排列至多四个视角的街名标志裁剪块，为模型提供了应对遮挡、模糊或光照变化的互补信息。标注文本并非对标志上文字的简单转录，而是经过标题大小写折叠与无关信息剔除的规范化形式，模拟地图标注的呈现方式。这种设计将传统OCR任务提升至语义理解层面，要求模型不仅识别字符，还需解析标志的语义结构。数据集采用TFRecords格式存储，并提供了字符到类别ID的映射文件，便于直接用于TensorFlow等深度学习框架。

使用方法

FSNS数据集适用于端到端街名标志识别系统的训练与评估。研究者可利用其多视图图像与规范化文本标注，设计能够同时处理文本定位、字符识别、无关信息过滤与视图融合的深度学习模型。数据集已按地理区块划分为训练、验证与测试子集，确保了模型评估的公正性。典型使用流程包括：通过TensorFlow的数据管道读取TFRecords文件，解析图像与类别标签；设计卷积神经网络与循环神经网络结合的结构，如STREET模型，以提取视觉特征并序列化文本信息；采用连接时序分类损失进行端到端优化。评估指标包括单词召回率、单词精确度与序列错误率，全面衡量系统性能。

背景与挑战

背景概述

在计算机视觉与光学字符识别领域，户外场景文本的检测与识别始终是极具挑战性的研究方向。2017年，谷歌研究团队正式发布了法国街名标志数据集（FSNS），该数据集包含超过一百万张从法国谷歌街景图像中裁剪出的街名标志图像。其核心研究目标在于推动端到端的街名提取技术发展，通过提供同一物理标志的多个视角图像，使深度学习模型能够综合处理透视畸变、图像模糊、遮挡及文本布局多变等复杂情况。FSNS的独特之处在于其标注文本并非简单的光学字符转录，而是经过标题化折叠与无关信息剔除的规范化地图名称，这要求识别系统具备语义理解能力，而非单纯的字符识别。该数据集的发布为场景文本理解领域提供了大规模、高质量的基准测试平台，显著促进了端到端多视角OCR模型的研究与创新。

当前挑战

FSNS数据集所应对的核心领域挑战在于复杂户外环境下的多视角街名标志端到端识别。具体而言，其挑战涵盖多个层面：在问题层面，模型需同步处理文本行定位、多语言字符识别、无关文本滤除、标题化规范化以及多视角信息融合，这要求系统兼具视觉感知与语义解析能力；在构建层面，数据采集面临地理分布广泛、标志形态多样、图像质量不均等难题，而标注过程更需克服大规模人工验证的精度控制、跨视角实体关联、以及文本规范化规则的一致性应用等障碍。此外，数据集的划分必须确保训练、验证与测试集在地理位置与文本内容上完全独立，以避免模型过拟合特定区域或街名，这对数据集的工程设计与质量控制提出了极高要求。

常用场景

经典使用场景

在计算机视觉与光学字符识别领域，户外场景文本的检测与识别始终面临视角扭曲、文本质量参差不齐及布局缺乏规律性等挑战。法国街名标志数据集（FSNS）通过提供超过百万张从法国街景图像中裁剪的街名标志图像，每张图像包含同一标志的多个视角，为研究者构建端到端的深度学习模型提供了理想平台。该数据集最经典的使用场景在于训练复杂神经网络，实现从原始图像直接输出规范化街名文本的完整流程，无需依赖传统OCR引擎中的独立预处理或后处理模块。其多视图特性允许模型融合不同视角的信息，以应对单张图像中可能存在的模糊、遮挡或光照不均等问题，从而提升识别鲁棒性。

衍生相关工作

围绕FSNS数据集，研究者们衍生出一系列经典工作，进一步拓展了多视图文本识别的边界。原论文提出的STREET模型首次展示了端到端网络在此类任务上的可行性，其结合卷积层、LSTM与CTC损失的设计成为后续研究的基准。后续工作在此基础上引入注意力机制、图神经网络或强化学习，以优化视角融合与文本行定位。同时，FSNS的构建方法论启发了类似多视图数据集的创建，如针对不同语言或场景的街名标志数据集。这些衍生研究不仅持续刷新FSNS榜单的性能指标，更推动了OCR技术向端到端、多模态理解范式的整体演进。

数据集最近研究