Textual Visual Semantic Dataset

Name: Textual Visual Semantic Dataset
Creator: 加泰罗尼亚理工大学，TALP研究中心，巴塞罗那，西班牙
Published: 2020-04-22 07:58:16
License: 暂无描述

arXiv2020-04-22 更新2024-06-21 收录

下载链接：

https://git.io/JeZTb

下载链接

链接失效反馈

官方服务：

资源简介：

Textual Visual Semantic Dataset是由加泰罗尼亚理工大学TALP研究中心创建的，旨在通过结合视觉上下文信息来提高自然场景中的文本识别能力。该数据集扩展自公开的COCO-text数据集，增加了场景中的物体和地点信息，以帮助研究人员在文本识别系统中加入文本与场景的语义关系。数据集包含图像中的文本候选、场景中的物体、图像位置标签和文本图像描述，利用现有的先进工具提取这些额外信息。该数据集的应用领域包括视觉辅助和自动驾驶等，旨在解决自然图像中自动检测和识别文本的挑战。

Textual Visual Semantic Dataset was developed by the TALP Research Center of the Universitat Politècnica de Catalunya, aiming to improve text recognition capabilities in natural scenes by incorporating visual contextual information. This dataset is extended from the publicly available COCO-text dataset, with added scene objects and location information to help researchers integrate semantic relationships between text and their surrounding contexts into text recognition systems. It contains text candidates in images, scene objects, image location tags, and text-related image descriptions, with these additional pieces of information extracted using existing state-of-the-art tools. Its application fields include visual assistance, autonomous driving and other scenarios, aiming to address the challenges of automatic text detection and recognition in natural images.

提供机构：

加泰罗尼亚理工大学，TALP研究中心，巴塞罗那，西班牙

创建时间：

2020-04-22

搜集汇总

数据集介绍

构建方式

Textual Visual Semantic Dataset (TVSD) 是基于 COCO-text 数据集扩展而来，通过集成图像中的视觉上下文信息，如场景中的物体、位置标签和图像描述（标题），为文本识别任务提供了丰富的语义关联。数据集构建过程中，首先利用多种预训练的文本识别模型生成图像中文本假设，然后通过自然语言处理工具提取图像中的视觉上下文信息。这些信息包括物体识别结果、场景标签和图像描述，通过语义相似度测量和阈值筛选，确保了数据集的质量和准确性。

特点

TVSD 数据集的特点在于它不仅包含了文本识别所需的图像和文本标注，还融入了丰富的视觉上下文信息。这使得研究人员能够在其文本识别系统中包含文本与场景之间的语义关系，从而提高文本识别的准确性和鲁棒性。数据集的另一个特点是提供了文本与物体共现频率信息，这对于估计给定物体出现时单词的条件概率非常有用。此外，TVSD 数据集还提供了不同粒度的数据集，包括训练集、测试集和验证集，以及文本与物体共现对数据库，为文本识别研究提供了多样化的选择。

使用方法

使用 TVSD 数据集时，研究人员可以将其作为文本识别任务的训练数据，通过结合视觉上下文信息来提高识别准确率。此外，数据集的文本与物体共现频率信息可以用于估计单词与物体的关联概率，从而帮助模型更好地理解文本与场景的关系。在实验评估中，TVSD 数据集被用于重排文本假设，通过比较候选词与图像上下文中的物体和场景的语义相似度，有效地提高了文本识别的准确率。

背景与挑战

背景概述

Textual Visual Semantic Dataset (TVSD) 是一个专为文本识别任务设计的视觉语义上下文数据集，旨在解决自然场景中文本检测和识别的挑战。该数据集由Ahmed Sabir、Francesc Moreno-Noguer和Lluís Padró等研究人员于2020年创建，主要研究人员来自巴塞罗那的加泰罗尼亚理工大学TALP研究中心和工业机器人与信息学研究所。TVSD的核心研究问题是，如何通过理解场景文本与其环境视觉语义关系来改善文本识别系统。该数据集扩展了公开可用的COCO-text数据集，增加了关于场景的信息，如图像中的物体、位置标签和文本图像描述（标题），以帮助研究人员在文本识别系统中包含文本与场景之间的语义关系，并提供一个共同的研究框架。

当前挑战

TVSD数据集面临着两个主要挑战：1) 解决领域问题的挑战：尽管文本识别在计算机视觉领域取得了显著进展，但自然场景中的文本识别仍然是一个开放性问题，因为文本出现的背景复杂，存在不均匀的背景、阴影、遮挡、透视扭曲等问题。2) 构建过程中的挑战：为了构建TVSD数据集，研究人员需要从图像中提取文本候选（文本假设）和周围视觉上下文信息。在提取文本候选时，研究人员使用了多个预训练的文本识别模型来生成k个文本假设，但需要过滤掉重复和不合理的单词。在提取视觉上下文信息时，研究人员使用了最先进的视觉分类器来获取图像中的物体、场景标签和文本描述。然而，由于物体分类器可能对某些预测不够自信，因此需要使用语义相似度测量和阈值来过滤掉预测结果。此外，为了丰富数据集，研究人员还增加了文本和物体共现频率的信息，但由于这些信息不是与每张图像相关联的，而是整个数据集的汇总，因此需要以单独的表格形式提供。

常用场景

经典使用场景

Textual Visual Semantic Dataset (TVSD) 主要用于场景文本识别，即检测和识别图像中出现的文本（如标志牌、交通信号或衣物上的品牌）。该数据集通过利用文本与其周围环境的关系来更好地识别场景中的文本，为文本识别系统提供了通用的框架。在图像中，每个文本都提取了三种上下文信息：场景中的对象、图像位置标签和文本图像描述（标题）。这些信息以文本形式存在，可以用于将文本相似性或语义关系方法引入文本识别系统，作为后处理或端到端训练。

实际应用

TVSD 的实际应用场景广泛，包括视觉障碍辅助工具、自动驾驶车辆、图像搜索引擎、图像字幕生成等。例如，在视觉障碍辅助工具中，TVSD 可以帮助识别图像中的文本，从而为视障用户提供更丰富的信息。在自动驾驶车辆中，TVSD 可以帮助识别道路标志和交通信号，提高车辆的安全性和可靠性。此外，TVSD 还可以用于图像搜索引擎，帮助用户通过图像中的文本信息进行搜索。在图像字幕生成中，TVSD 可以帮助生成更准确、更自然的图像描述。

衍生相关工作

TVSD 衍生了许多相关的经典工作，包括基于深度学习的场景文本识别方法、基于视觉语义上下文的文本识别方法、基于自然语言处理的文本识别方法等。这些相关工作在 TVSD 的基础上，进一步探索了场景文本识别的各个方面，包括文本检测、文本识别、文本理解等。例如，一些研究工作利用 TVSD 中的视觉语义上下文信息，提出了新的文本识别模型，提高了场景文本识别的准确性和鲁棒性。此外，一些研究工作利用 TVSD 中的文本信息，提出了新的自然语言处理方法，提高了图像字幕生成的质量和自然度。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集