WAS-R, WAS-S

Name: WAS-R, WAS-S
Creator: 华中科技大学
Published: 2024-08-01 02:29:36
License: 暂无描述

arXiv2024-08-01 更新2024-08-05 收录

下载链接：

https://github.com/xdxie/WAS_WordArt-Segmentation

下载链接

链接失效反馈

官方服务：

资源简介：

WAS数据集由华中科技大学和Adobe公司联合创建，专注于艺术文本分割任务。WAS-R数据集包含7100张艺术文本图像，具有高质量的词级标注，包括四边形框、掩码和转录。WAS-S数据集则是一个合成数据集，利用大型多模态模型和扩散模型生成，旨在提高文本分割模型的准确性和泛化能力。这些数据集主要用于解决艺术文本在复杂场景中的分割问题，特别是在文本图像生成、编辑和风格转换等任务中。

The WAS dataset was jointly created by Huazhong University of Science and Technology and Adobe Inc., focusing on the artistic text segmentation task. The WAS-R dataset contains 7100 artistic text images with high-quality word-level annotations, including quadrilateral bounding boxes, segmentation masks and transcriptions. The WAS-S dataset is a synthetic dataset generated using large multimodal models and diffusion models, aiming to improve the accuracy and generalization ability of text segmentation models. These datasets are primarily used to address the segmentation problem of artistic text in complex scenarios, especially in tasks such as text image generation, editing and style transfer.

提供机构：

华中科技大学

创建时间：

2024-08-01

原始信息汇总

WAS: 艺术文本分割数据集及方法 (ECCV 2024)

数据集引用

在使用WAS数据集或本仓库时，请引用以下论文：

@article{xie2024was, title={WAS: Dataset and Methods for Artistic Text Segmentation}, author={Xie, Xudong and Li, Yuzhe and Liu, Yang and Zhang, Zhifei and Wang, Zhaowen and Xiong, Wei and Bai, Xiang}, booktitle={ECCV}, year={2024} }

搜集汇总

数据集介绍

构建方式

WAS-R数据集的构建涉及从各种来源收集7100张艺术文本图像，包括海报、卡片、封面、标志、商品、路标、广告牌、数字设计和手写文本。其中，4100张图像用于训练，而剩余的3000张图像则构成测试集。为了确保数据的多样性，收集过程中特别平衡了从场景中捕获的图像和直接从设计软件导出的图像。WAS-R数据集的特色在于其详尽的标注，为每个单词提供了独特的四边形检测框和分割掩码标签，以及文字转录。此外，数据集还标注了单词效果，如阴影、辉光和3D效果，这些效果对于将艺术文本与常规场景文本区分开来至关重要。WAS-S数据集是通过合成过程构建的，该过程使用多模态模型和扩散模型来生成与输入文本掩码像素对齐的文本图像。

特点

WAS数据集的独特之处在于它专注于艺术文本分割，这是一个具有挑战性的任务，因为艺术文本的局部笔划形状多样且复杂。WAS-R数据集提供了详尽的标注，包括单词级的四边形框、掩码和转录，以及单词效果标注。WAS-S数据集是通过先进的合成技术生成的，利用多模态模型和扩散模型来生成具有现实性、准确性和多样性的图像。这些数据集的设计旨在帮助研究人员和开发人员更好地理解和分割艺术文本，从而推动文本视觉研究的发展。

使用方法

使用WAS数据集时，研究人员可以首先在WAS-R数据集上进行训练，以学习如何分割真实世界的艺术文本图像。然后，他们可以使用WAS-S数据集进行进一步的训练，以提高模型对各种艺术文本风格的泛化能力。在模型训练过程中，可以采用层间动量查询（LMQ）机制，以处理艺术文本中灵活多变的局部笔划形状。此外，骨架辅助头部可以用来捕捉文本的复杂全局拓扑结构。实验结果表明，使用WAS数据集训练的模型在艺术文本分割和场景文本分割任务上均取得了最先进的结果。

背景与挑战

背景概述

在文本生成任务中，精确的文本分割结果至关重要，例如文本图像生成、文本编辑、文本去除和文本风格迁移。尽管现有的场景文本分割方法在分割常规文本方面取得了显著进展，但在包含艺术文本的场景中表现不佳。因此，本文重点关注更具挑战性的艺术文本分割任务，并构建了一个真实艺术文本分割数据集。该数据集由华中科技大学和Adobe的研究人员于2024年7月提出，旨在解决艺术文本分割中存在的特殊形状和复杂全局拓扑结构的问题。该数据集的创建对于文本相关生成任务具有重要意义，并为艺术文本分割领域的研究提供了新的基准。

当前挑战

艺术文本分割面临着两个独特的挑战：1) 艺术文本的笔划具有灵活多变的局部形状，如细长的尾巴或扭曲的连笔；2) 艺术文本的全局拓扑结构非常复杂，内部有许多孔洞和复杂的连接。相比之下，常规文本的局部笔划形状和全局结构几乎是不变的，而一般物体的拓扑结构非常简单。因此，本文提出的方法具有明显的学术价值和实际意义。目前，很少有专门用于文本分割的模型。最近的研究要么需要文本检测模块的帮助，要么需要字符级识别器的辅助。此外，这些方法并没有专门针对艺术文本进行设计。针对这些问题，本文提出了一个名为WASNet的WordArt分割模型。为了应对第一个挑战，我们提出了一种具有层间动量查询的Transformer解码器。为了应对第二个挑战，我们提出了一种骨架辅助头，使模型能够同时输出掩码预测和骨架预测，从而引导模型关注全局拓扑结构。我们在艺术文本分割任务上进行了广泛的实验，以验证所提出的方法和合成数据集的有效性。我们还验证了在其他公共数据集上的泛化能力。结果表明，我们提出的方法和合成数据集可以显著提高艺术文本分割的性能，并在其他公共数据集上取得了最先进的结果。

常用场景

经典使用场景

WAS-R和WAS-S数据集是专为艺术文本分割任务设计的。艺术文本分割在文本图像生成、文本编辑、文本移除和文本风格迁移等生成任务中至关重要。该数据集为研究艺术文本分割提供了基准，并通过引入层间动量查询和骨架辅助头来解决艺术文本分割的挑战，显著提高了艺术文本分割的性能。

衍生相关工作

WAS-R和WAS-S数据集的提出引发了学术界对艺术文本分割任务的关注，并衍生出了一系列相关的研究工作。例如，基于WAS数据集，研究者们提出了WASNet模型，该模型通过引入层间动量查询和骨架辅助头来解决艺术文本分割的挑战，取得了最先进的性能。此外，WAS数据集还促进了合成数据集的生成方法的研究，为艺术文本分割提供了更多高质量的训练数据。

数据集最近研究