ShopSign
收藏arXiv2019-03-25 更新2024-06-21 收录
下载链接:
https://github.com/chongshengzhang/shopsign
下载链接
链接失效反馈官方服务:
资源简介:
ShopSign数据集是由河南大学等机构开发的一个大规模、多样化和具有挑战性的中文场景图像数据集,专注于街道视图中的中国商店招牌。该数据集包含25,770张图像,涵盖了从市中心到发展中地区的不同场景,使用超过50种不同手机拍摄。数据集的创建过程涉及大量的人工收集和标注工作,由40名学生和多名研究人员共同完成。ShopSign数据集的应用领域主要集中在解决中文场景文本检测和识别问题,特别是在处理复杂背景、不同光照条件和多方向文本等方面。
The ShopSign dataset is a large-scale, diverse and challenging Chinese scene image dataset developed by Henan University and other institutions, focusing on Chinese store signs in street view scenarios. It contains 25,770 images covering various scenarios from downtown areas to underdeveloped regions, and was captured using over 50 different mobile phones. The development of this dataset involved extensive manual collection and annotation work, which was jointly completed by 40 students and multiple researchers. The main application fields of the ShopSign dataset are centered on solving Chinese scene text detection and recognition problems, especially in dealing with complex backgrounds, varying illumination conditions and multi-oriented text.
提供机构:
河南大学
创建时间:
2019-03-25
搜集汇总
数据集介绍

构建方式
ShopSign数据集的构建方式涉及广泛的地域覆盖和多样的采集手段。数据集由超过20个中国城市的街头招牌图像组成,使用了超过50种不同的智能手机进行拍摄,以确保图像的多样性和覆盖范围。图像采集工作历时两年多,并由40名学生参与完成。之后,由两名教师和十名研究生对图像进行手动标注,采用文本行的方式进行,共标注了25,770张图像,包含196,010条文本行。
特点
ShopSign数据集具有几个显著的特点:大规模、多样性、难度高。数据集包含25,770张图像,196,010条文本行,涵盖了4,072种不同的汉字,展现了广泛的场景、规模、方向、光照条件、布局和地理位置。数据集还包含了5种特殊类别的“困难”图像,包括镜子、木头、变形、曝光和模糊的文本,以增加识别的难度。此外,数据集还包含了2,516对图像,每对图像从正面和倾斜的角度拍摄同一招牌,便于评估算法对水平和多方向文本的检测能力。
使用方法
ShopSign数据集可用于训练和评估场景文本检测和识别算法。数据集分为训练集和测试集,训练集包含20,738张图像,测试集包含5,032张图像。测试集还包含了2,516对图像,每对图像从正面和倾斜的角度拍摄同一招牌,便于评估算法对水平和多方向文本的检测能力。此外,为了评估算法在困难类别图像上的表现,数据集还分为另一组训练集和测试集,测试集包含每个困难类别的半数图像。
背景与挑战
背景概述
自然场景文本识别是计算机视觉领域的一个重要研究方向,尤其在近年来深度学习技术的推动下,该领域取得了显著进展。然而,现有的研究主要集中在英文文本识别上,对中文文本识别的关注相对较少。中文文本识别的难点在于其字符种类繁多、语言结构复杂,且缺乏大规模的中文自然场景图像数据集。为了推动中文场景文本识别的研究,张崇生等人于2019年发布了ShopSign数据集。该数据集包含25,770张中国街头店铺招牌的自然场景图像,涵盖了多种尺度、方向、光照条件、布局和地理位置,并包含5种“硬”图像类别,即镜像、木质、变形、曝光和模糊的文本。这些图像被手动以“文本行”的方式进行标注,共包含196,010条文本行。ShopSign数据集的发布,为中文场景文本识别的研究提供了宝贵的数据资源,并对相关领域产生了积极的影响。
当前挑战
ShopSign数据集的发布,虽然为中文场景文本识别的研究提供了宝贵的数据资源,但也面临着一些挑战。首先,中文字符种类繁多,数据集存在稀疏性和类别不平衡的问题。其次,文本行的标注方式进一步增加了数据稀疏性。此外,ShopSign数据集中的“硬”图像类别,如镜像、木质、变形、曝光和模糊的文本,给文本检测和识别带来了更大的挑战。为了解决这些问题,研究人员需要探索新的数据增强方法,以及设计更鲁棒的文本检测和识别算法。
常用场景
经典使用场景
在自然场景文本识别领域,ShopSign数据集凭借其规模庞大、多样性丰富和难度高的特点,成为了研究中文场景文本检测和识别的重要资源。该数据集包含了25,362张包含中文店铺招牌的图片,共计196,010行文本。这些图片是在中国各地不同场景下,使用超过50部不同的手机拍摄的,涵盖了从城市中心到发展区域的各种场景。ShopSign数据集的图像具有多种规模、方向、光照条件、布局和地理空间位置,同时还包含了五种类型的“困难”图像,包括镜面、木质、变形、暴露和模糊文本。这使得ShopSign数据集非常适合用于训练和评估场景文本检测算法,尤其是在中文场景文本识别方面。
解决学术问题
ShopSign数据集解决了中文场景文本识别领域长期存在的缺乏大规模、高质量标注数据集的问题。由于中文文字的复杂性和字符数量众多,传统的基于低级特征的方法难以有效识别中文场景文本。而深度学习技术需要大量数据来训练模型,因此高质量的中文场景文本数据集对于推动中文场景文本识别技术的发展至关重要。ShopSign数据集的发布,为研究人员提供了丰富的训练数据,有助于推动中文场景文本识别技术的进步。
衍生相关工作
ShopSign数据集的发布,也促进了一系列相关研究工作的开展。例如,研究人员基于ShopSign数据集,提出了新的中文场景文本检测和识别算法,并取得了显著的性能提升。此外,ShopSign数据集还促进了中文场景文本数据生成技术的发展,例如基于生成对抗网络(GAN)的合成数据生成技术,可以生成更加多样化和复杂的中文场景文本图像,为中文场景文本识别研究提供更加丰富的训练数据。
以上内容由遇见数据集搜集并总结生成



