Signboard_Dataset_for_Post-OCR_Parsing

github2022-12-14 更新2024-05-31 收录

下载链接：

https://github.com/jaechanjo/Signboard_Dataset_for_Post-OCR-Parsing

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集设计用于提取商店招牌中的各种信息，如店名、电话号码等，适用于深度学习和解析任务。数据集结构化，包含多种语义标签和类别定义，以帮助从场景文本中提取商业信息。

This dataset is designed for extracting various information from store signs, such as store names and phone numbers, and is suitable for deep learning and parsing tasks. The dataset is structured, containing multiple semantic labels and category definitions to assist in extracting commercial information from scene text.

创建时间：

2022-12-09

原始信息汇总

数据集概述

数据集名称

Signboard_Dataset_for_Post-OCR_Parsing

数据集目的

设计用于提取商店招牌中各种信息的训练数据结构，适用于深度学习和解析。

关键字

Shop Sign Dataset
Post-OCR
Scene Text Detection
NER Task

类别定义

meta
- version: 数据集版本
- image_id: 对应图像的ID
- image_path: 图像保存的文件路径
- image_height: 图像高度（像素）
- image_width: 图像宽度（像素）
roi
- points: 四边形的四个坐标
- words: 特定文字信息
  - is_vertical: 垂直形状的商店招牌
  - is_occlusion: 部分商店招牌被其他物体遮挡
  - category: 三种文字类型（store_name, telephone, noise）
  - text: 招牌上的字母
- roi_name: 招牌上的字母
- occlusion: 部分商店招牌被其他物体遮挡
- vertical: 垂直形状的商店招牌

下载链接

Image
- 总数: 1000
- 链接: https://drive.google.com/file/d/1s3zg9ltTTveDYGCUWkn3s2o1BSqnd-0i/view?usp=share_link
- 发布日期: 13 Dec 2022
Label
- 总数: 1000
- 链接: https://drive.google.com/file/d/1u0E5DlhL7dJlpfJBAtYLkt9cOjW3k414/view?usp=share_link
- 发布日期: 13 Dec 2022

搜集汇总

数据集介绍

构建方式

该数据集专为深度学习与解析设计，旨在从商店招牌中提取多样化信息。构建过程中，研究者们精心收集了1000张商店招牌图像，并对其进行了详细的标注。每张图像不仅包含了商店名称、电话号码等关键信息，还特别标注了文字的方向、遮挡情况以及是否为噪音信息。这种分层的标注结构使得数据集能够更精确地服务于商业信息的提取任务。

使用方法

使用该数据集时，用户首先需要从提供的下载链接获取图像和标签文件。数据集的结构设计允许用户直接利用现有的深度学习框架进行模型训练，特别是在处理OCR后解析任务时，可以有效地利用数据集中的详细标注信息来优化模型性能。此外，数据集的分层标注结构也为研究者提供了灵活性，可以根据具体需求选择不同的信息层次进行训练和测试。

背景与挑战

背景概述

Signboard_Dataset_for_Post-OCR_Parsing数据集由Sogang AI Research的多媒体系统实验室于2022年12月发布，主要研究人员包括JeongSoo Kim、HyungYoun Na、Jaechan Jo等。该数据集旨在解决从商店招牌中提取商业信息的问题，特别是在COVID-19疫情背景下，随着外卖服务的激增，快速获取商店信息的需求日益增加。传统的场景文本识别（STR）模型虽然能够识别场景中的所有字符，但无法有效提取仅与商业相关的信息。为此，该数据集提出了一种新的分层结构，专注于商店名称、电话号码等关键信息，同时过滤掉不必要的噪声数据。这一创新为商业信息提取领域提供了重要的数据支持，推动了相关研究的进展。

当前挑战

Signboard_Dataset_for_Post-OCR_Parsing数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，尽管该数据集旨在解决商业信息提取的难题，但招牌文本的多样性和复杂性（如垂直排列、遮挡、噪声等）使得信息提取的准确性难以保证。其次，在数据集构建过程中，研究人员需要处理大量真实场景中的招牌图像，这些图像通常包含复杂的背景、光照变化以及部分遮挡，导致数据标注的难度显著增加。此外，如何设计合理的分层结构以区分关键信息与噪声，也是构建过程中需要克服的技术难点。这些挑战不仅考验了数据集的构建质量，也为后续的模型训练和优化提出了更高的要求。

常用场景

经典使用场景

Signboard_Dataset_for_Post-OCR_Parsing数据集在场景文本识别（STR）领域具有重要应用，特别是在商业信息提取方面。该数据集通过分层标注店铺名称、电话号码等关键信息，为深度学习模型提供了结构化的训练数据。其经典使用场景包括从街景图像中自动提取商铺信息，帮助用户快速获取商铺的详细信息，如名称和联系方式。

解决学术问题

该数据集解决了现有场景文本识别模型在处理商业信息时的局限性。传统STR模型通常对所有场景文本进行标注，难以区分商铺信息与其他无关文本。通过引入分层标注结构，该数据集显著提升了模型在商业信息提取任务中的准确性和效率，为后续的命名实体识别（NER）任务提供了高质量的训练数据。

实际应用

在实际应用中，Signboard_Dataset_for_Post-OCR_Parsing数据集被广泛用于智能导航系统和本地服务推荐平台。例如，结合街景数据，该数据集可以帮助用户快速定位商铺并获取其详细信息，提升用户体验。此外，在物流配送领域，该数据集还可用于优化配送路线，提高配送效率。

数据集最近研究