Textual Visual Semantic Dataset for Text Spotting

github2023-01-26 更新2024-05-31 收录

下载链接：

https://github.com/ahmedssabir/dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于Text Spotting的视觉语义数据集，旨在通过扩展COCO-text数据集，添加场景信息（如图像中的物体和地点），以帮助研究人员在Text Spotting系统中考虑文本与场景之间的语义关系，并提供一个共同框架。

This is a visual semantic dataset designed for Text Spotting, which aims to assist researchers in considering the semantic relationships between text and scenes within Text Spotting systems by expanding the COCO-text dataset with additional scene information (such as objects and locations in images). It also provides a unified framework for this purpose.

创建时间：

2018-10-14

原始信息汇总

数据集概述

数据集名称

Textual Visual Semantic Dataset for Text Spotting

数据集用途

用于Text Spotting任务，即在图像中检测和识别文本，如标识牌、交通信号或衣物品牌等。

数据集特点

基于COCO-text数据集扩展，增加了场景信息（如图像中的物体和地点），以支持研究者在其Text Spotting系统中考虑文本与场景的语义关系。

数据集结构

1. 图像提取
- 使用COCO-text官方API提取全图及其边界框（gt）。
- 使用Matlab 2018和MatConvNet框架提取边界框和顶部k个物体。
2. 视觉上下文数据
- 包含图像ID、检测到的单词、物体和地点信息。
- 提供预计算的模型以计算物体/地点之间的相似度或距离。
3. 测试数据
- 包含图像ID、检测到的单词、物体1、物体2和地点。
- 来自ICDAR2017 Robust Reading Challenge on COCO-Text，Task 3 End-to-End Recognition。
4. 图像描述
- 包含图像ID、检测到的单词、物体和地点的描述。
5. 物体和文本共现数据库
- 提供文本和物体的共现信息及其条件概率。

数据集操作

提供Python和Matlab脚本用于数据处理和分析。
支持使用预训练模型（如GloVe和fastText）进行相似度计算。

数据集引用

bibtex @inproceedings{sabir2020textual, title={Textual visual semantic dataset for text spotting}, author={Sabir, Ahmed and Moreno-Noguer, Francesc and Padr{o}, Llu{\i}s}, booktitle={Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops}, pages={542--543}, year={2020} }

搜集汇总

数据集介绍

构建方式

Textual Visual Semantic Dataset for Text Spotting 数据集的构建基于COCO-text数据集，并进一步扩展了场景信息。通过使用COCO-text的官方API提取完整图像及其标注信息，结合MatConvNet框架和预训练的Resnet152模型，提取图像中的边界框和对象信息。此外，数据集还引入了视觉上下文信息，包括图像中的对象和场景，以增强文本与场景之间的语义关系。

特点

该数据集的特点在于其丰富的视觉上下文信息，不仅包含文本的边界框和识别结果，还提供了图像中的对象和场景信息。通过引入对象与文本的共现概率，数据集能够帮助研究者更好地理解文本与场景之间的语义关系。此外，数据集还提供了基于GloVe和fastText的语义相似度计算工具，支持对文本与对象关系的深入分析。

使用方法

使用该数据集时，研究者可以通过提供的Python和Matlab脚本提取图像中的文本和对象信息，并利用预训练的模型进行语义相似度计算。数据集支持对文本与场景关系的可视化分析，并提供了一系列工具用于计算对象与文本的共现概率。此外，研究者还可以利用数据集中的标注信息进行文本识别和场景理解的实验，进一步探索文本与视觉语义的关系。

背景与挑战

背景概述

Textual Visual Semantic Dataset for Text Spotting 是由Ahmed Sabir、Francesc Moreno-Noguer和Lluís Padró等研究人员于2020年提出的一个计算机视觉数据集，旨在解决自然场景中的文本检测与识别问题。该数据集基于COCO-text数据集，并进一步扩展了场景信息，包括图像中的物体和地点等语义信息，以帮助研究人员更好地理解文本与其周围环境的关系。该数据集的提出为文本检测与识别领域提供了一个新的研究方向，尤其是在复杂背景下的文本识别任务中，具有重要的研究价值和应用前景。

当前挑战

Textual Visual Semantic Dataset for Text Spotting 面临的挑战主要包括两个方面。首先，在解决领域问题时，文本检测与识别任务本身具有较高的复杂性，尤其是在自然场景中，文本可能受到光照、遮挡、透视变形等多种因素的干扰，导致识别精度下降。其次，在数据集的构建过程中，如何有效地从COCO-text数据集中提取并整合场景语义信息，以及如何确保这些信息的准确性和一致性，也是一个重要的技术挑战。此外，数据集的扩展和标注工作也面临较高的时间和人力成本，尤其是在处理大规模图像数据时，如何保证标注质量的同时提高效率，是构建过程中需要克服的关键问题。

常用场景

经典使用场景

Textual Visual Semantic Dataset for Text Spotting 数据集在计算机视觉领域中被广泛用于文本检测与识别任务，尤其是在复杂场景下的文本定位。该数据集通过扩展COCO-text数据集，提供了图像中文本与周围环境的语义关系信息，使得研究人员能够在文本检测系统中更好地利用上下文信息。经典的使用场景包括在自然环境中（如街道标志、广告牌等）进行文本识别，尤其是在背景复杂、光照不均或存在遮挡的情况下。

衍生相关工作

该数据集衍生了一系列经典的研究工作，例如《Visual Re-ranking with Natural Language Understanding for Text Spotting》和《Semantic Relatedness Based Re-ranker for Text Spotting》。这些工作通过利用数据集中的视觉上下文信息，提出了基于语义相关性的重排序方法，显著提升了文本检测与识别的性能。此外，这些研究还为后续的文本检测与识别算法提供了新的思路和方法，推动了该领域的发展。

数据集最近研究