TextSeg

Name: TextSeg
Creator: 伊利诺伊大学厄巴纳-香槟分校, Adobe, 俄勒冈大学
Published: 2020-11-28 06:50:09
License: 暂无描述

arXiv2020-11-28 更新2024-06-21 收录

下载链接：

https://github.com/SHI-Labs/Rethinking-TextSegmentation

下载链接

链接失效反馈

官方服务：

资源简介：

TextSeg是一个由伊利诺伊大学厄巴纳-香槟分校、Adobe和俄勒冈大学共同创建的大规模精细标注文本分割数据集。该数据集包含4024张来自多种来源的文本图像，包括场景文本和设计文本，每张图像都提供了六种类型的标注，如单词和字符级别的边界多边形、掩码和转录。TextSeg旨在解决现有数据集在规模和标注质量上的不足，推动文本分割研究的进步。数据集的应用领域广泛，包括文本风格转移、场景文本移除等，旨在提升文本处理工具的智能化和自动化水平。

TextSeg is a large-scale finely annotated text segmentation dataset co-created by the University of Illinois Urbana-Champaign, Adobe, and the University of Oregon. This dataset contains 4024 text images from diverse sources including scene text and design text, with six types of annotations provided for each image, such as word-level and character-level boundary polygons, masks, and transcriptions. TextSeg aims to address the shortcomings of existing datasets in terms of scale and annotation quality, thereby advancing the research on text segmentation. The dataset has a wide range of application scenarios, including text style transfer, scene text removal and other related fields, and is intended to enhance the intelligence and automation level of text processing tools.

提供机构：

伊利诺伊大学厄巴纳-香槟分校, Adobe, 俄勒冈大学

创建时间：

2020-11-28

搜集汇总

数据集介绍

构建方式

TextSeg数据集的构建方式是在广泛收集真实场景文本和设计文本图像的基础上进行的。这些图像来源于海报、贺卡、封面、标志、路牌、广告牌、数字设计、手写等多样化的场景。数据集共包含4024张图像，其中场景文本和设计文本的比例约为1:1。对于每张图像，TextSeg提供了六种类型的标注：单词和字符级的边界多边形、掩码和转录。这些标注的详细性和准确性使得TextSeg成为现代文本分割研究的理想选择。

特点

TextSeg数据集的特点主要体现在以下几个方面：首先，它包含了丰富的文本类型，包括场景文本和设计文本，使得数据集更加贴近现实世界；其次，数据集提供了更为全面的标注，包括单词和字符级的边界多边形、掩码和转录，以及文本效果的标注，如阴影、3D、光环等；最后，TextSeg的标注精度较高，能够有效地帮助模型学习文本分割的规律。这些特点使得TextSeg在文本分割领域具有很高的研究价值。

使用方法

TextSeg数据集的使用方法与其他图像分割数据集类似。用户可以根据自己的研究需求，将数据集分为训练集、验证集和测试集。在进行模型训练时，可以使用数据集中的标注信息作为监督信号。此外，由于TextSeg提供了字符级的标注，用户还可以利用这些信息进行字符识别等任务。在模型评估时，可以使用fgIoU和F-score等指标来衡量模型的分割性能。总的来说，TextSeg数据集为文本分割研究提供了丰富的数据资源，可以帮助研究人员开发更有效的文本分割模型。

背景与挑战

背景概述

文本分割是计算机视觉领域中许多实际任务的前提，例如文本风格转换和场景文本移除。然而，由于缺乏高质量的文本分割数据集和专门的研究，这一关键前提在许多工作中被视为理所当然，并且被当前的研究所忽视。为了弥补这一差距，我们提出了TextSeg，这是一个具有六种注释的大规模精细注释文本数据集：单词和字符级的边界多边形、掩码和转录。我们还引入了Text Refinement Network (TexRNet)，这是一种新颖的文本分割方法，能够适应文本的独特特性，例如非凸边界、多样纹理等，这些特性往往给传统分割模型带来负担。在我们的TexRNet中，我们提出了针对文本的特定网络设计，以解决这些挑战，包括关键特征池化和基于注意力的相似性检查。我们还引入了trimap和鉴别器损失，这些损失在文本分割上显示出显著的改进。在TextSeg数据集和其他现有数据集上进行了广泛的实验。结果表明，与最先进的分割方法相比，TexRNet始终将文本分割性能提高了近2%。我们的数据集和代码将可供下载。

当前挑战

文本分割数据集和方法的当前挑战包括：1)缺乏大规模和精细注释的数据集，限制了文本分割算法和方法的进一步发展；2)文本分割算法和方法近年来相对滞后，缺乏专门的研究和有效的数据集。为了解决这些挑战，我们提出了TextSeg数据集，它收集了来自更广泛来源的图像，包括场景文本和设计文本，并提供了更丰富的准确注释。此外，我们还提出了TexRNet，这是一种新的文本分割方法，旨在解决文本分割的独特挑战，例如多样纹理和任意缩放的文本。TexRNet通过关键特征池化和基于注意力的相似性检查等有效网络模块和损失来解决这些挑战，例如trimap损失和字符鉴别器。在TextSeg数据集和其他现有数据集上的广泛实验表明，TexRNet在文本分割方面优于最先进的分割方法。

常用场景

经典使用场景

TextSeg数据集主要用于文本分割任务，该任务在许多现实世界的文本相关任务中都是先决条件，例如文本风格迁移和场景文本去除。该数据集提供了丰富的注释，包括单词和字符级别的边界多边形、掩码和转录，使得研究者可以训练出更加精确的文本分割模型。

实际应用

TextSeg数据集在实际应用场景中具有广泛的应用价值。例如，在照片和视频编辑中，文本去除是一个实际的问题，而TextSeg数据集可以提供更精确的文本掩码，从而实现更好的文本去除效果。此外，文本风格迁移也是研究和工业中的一项热门任务，TextSeg数据集可以提供准确的文本掩码，帮助实现场景文本风格迁移。

衍生相关工作

TextSeg数据集衍生了相关的经典工作，例如Text Refinement Network (TexRNet)。TexRNet是一种新型的文本分割方法，它针对文本分割的独特挑战进行了设计，包括关键特征池化和基于注意力的相似性检查。TexRNet在TextSeg数据集和其他现有数据集上的实验结果表明，它比其他最先进的分割方法在文本分割性能上提高了近2%。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集