Total-Text

Name: Total-Text
Creator: 马来亚大学计算机科学与信息技术学院图像与信号处理中心
Published: 2017-10-28 14:39:43
License: 暂无描述

arXiv2017-10-28 更新2024-06-21 收录

下载链接：

https://github.com/cs-chan/Total-Text-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Total-Text数据集由马来亚大学图像与信号处理中心创建，专注于场景文本检测与识别，特别是曲线路径文本。该数据集包含1555张图像，共9330个标注文本实例，涵盖水平、多向和曲线文本三种方向。创建过程中，数据集考虑了文本方向的多样性，超过半数图像包含两种以上文本方向。Total-Text旨在解决现有数据集中曲线文本缺失的问题，推动场景文本检测技术的发展，特别是在处理复杂场景中的曲线文本识别方面。

Total-Text dataset was created by the Centre for Image and Signal Processing at the University of Malaya, focusing on scene text detection and recognition, particularly curved text. This dataset includes 1555 images with a total of 9330 annotated text instances, covering three text orientations: horizontal, multi-oriented, and curved text. During its construction, the diversity of text orientations was fully considered, with over half of the images containing more than two types of text orientations. The core goal of Total-Text is to address the lack of curved text samples in existing datasets, and promote the development of scene text detection technologies, especially for curved text recognition in complex scenes.

提供机构：

马来亚大学计算机科学与信息技术学院图像与信号处理中心

创建时间：

2017-10-28

搜集汇总

数据集介绍

构建方式

Total-Text 数据集的构建旨在填补现有场景文本数据集中曲线方向文本的缺失。该数据集包含了1555个场景图像，共9330个带注释的单词，涵盖了三种不同的文本方向：水平、多方向和曲线文本。为了确保数据集的多样性和挑战性，超过一半的图像具有两种以上的文本方向。Total-Text 数据集的收集和注释工作是由作者手动完成，并与其他实验室成员进行了交叉验证，以确保数据的质量和准确性。

特点

Total-Text 数据集的特点在于其文本方向的多样性。超过一半的图像中包含了两种以上的文本方向，这使得数据集在文本检测和识别任务中更具挑战性。此外，Total-Text 数据集还包含了丰富的场景多样性，包括商业标识、景点标志、入口标识等，这些场景中的文本通常以对称弧形出现。Total-Text 数据集的注释采用了多边形形状的边界框，以更准确地描述文本区域，而不是使用传统的矩形边界框。此外，数据集还提供了每个文本实例的方向标注，以及二值掩码标注，以适应基于分割的文本检测方法的需求。

使用方法

Total-Text 数据集可用于场景文本检测和识别的研究和开发。数据集的使用方法包括下载和加载图像数据、读取注释文件，以及使用评估协议对文本检测算法进行评估。Total-Text 数据集的注释文件包含了每个文本实例的空间位置、转录文本、方向和二值掩码等信息。研究者可以使用这些信息来训练和评估文本检测算法，并与其他数据集进行比较。Total-Text 数据集的评估协议与 ICDARs 数据集相似，但进行了修改，以处理多边形形状的边界框。

背景与挑战

背景概述

场景文本检测与识别是计算机视觉领域的研究热点，随着多媒体检索、工业自动化、辅助视障人士设备等应用需求的增长，该领域的研究日益活跃。Total-Text数据集的创建旨在填补现有场景文本数据集中曲线方向文本的空白，并促进场景文本研究的新方向。该数据集由马来西亚马来亚大学的图像与信号处理中心的研究人员Chee Kheng Ch’ng和Chee Seng Chan创建，于2017年发布。Total-Text数据集的核心研究问题在于解决场景文本检测中曲线方向文本的识别，这对现有场景文本数据集提出了挑战。该数据集的发布对于场景文本检测与识别领域的研究产生了重要的影响，为后续的研究工作提供了宝贵的数据资源。

当前挑战

Total-Text数据集所面临的挑战主要包括：1) 场景文本检测中曲线方向文本的识别问题；2) 构建过程中所遇到的挑战。在解决曲线方向文本识别问题的挑战方面，Total-Text数据集提供了丰富的曲线方向文本实例，这对于研究曲线方向文本的检测与识别算法提供了重要的数据基础。然而，现有的场景文本检测算法大多数都是基于水平或任意方向文本的假设，因此需要对这些算法进行改进或设计新的算法以适应曲线方向文本的检测。在构建过程中的挑战方面，Total-Text数据集的构建需要对大量的场景图像进行收集、标注和预处理，这需要大量的时间和人力资源。此外，由于曲线方向文本的复杂性，需要设计更加精细的标注方法和评价协议，以确保数据集的质量和有效性。

常用场景

经典使用场景

Total-Text 数据集被广泛应用于场景文本检测与识别的研究中，特别是在处理曲线方向文本的场景。该数据集包含了超过半数的图像具有两种以上的文本方向组合，为研究者提供了丰富的多方向文本实例。Total-Text 的一个经典使用场景是作为基准数据集来评估和比较不同文本检测算法的性能，特别是在处理曲线文本时的鲁棒性和准确性。通过在 Total-Text 上进行实验，研究者可以验证他们的算法是否能够有效识别和定位真实场景中的曲线文本。

解决学术问题

Total-Text 数据集解决了现有场景文本数据集中缺乏曲线方向文本的问题。在过去的场景文本数据集中，曲线文本几乎不存在，这导致了研究者们在设计文本检测算法时往往忽略了对曲线文本的处理。Total-Text 的出现填补了这一空白，为场景文本检测研究提供了一个新的研究方向。通过提供大量的曲线文本实例，Total-Text 有助于推动曲线文本检测算法的发展，提高了算法对现实世界中不同文本方向的适应性。

衍生相关工作

Total-Text 数据集的发布催生了一系列相关的研究工作，特别是在基于分割的文本检测领域。例如，Zhang 等人提出了一种基于 FCN 的多方向文本检测算法，并在 Total-Text 上取得了良好的效果。此外，Total-Text 的发布还促进了文本检测算法对曲线文本的处理能力的提升，如 He 等人提出了一种基于级联卷积文本网络的算法，在 Total-Text 上取得了优异的性能。这些相关工作不仅推动了场景文本检测技术的发展，也为曲线文本检测算法的研究提供了新的思路和方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集