OTR (Overlay Text Removal)

Name: OTR (Overlay Text Removal)
Creator: CyberAgent Tokyo, Japan
Published: 2025-10-03 15:44:07
License: 暂无描述

arXiv2025-10-03 更新2025-11-20 收录

下载链接：

https://hf-mirror.com/datasets/cyberagent/OTR

下载链接

链接失效反馈

官方服务：

资源简介：

OTR数据集是一个用于文本去除的合成数据集，旨在解决现有数据集在背景复杂性和真实性方面的不足。该数据集由CyberAgent东京研发，包含合成在复杂背景上的文本图像及其对应的无文本图像。数据集分为OTR-easy和OTR-hard两个子集，分别包含5538和9055个样本。OTR-easy子集由MS-COCO数据集中的图像生成，OTR-hard子集由Open Images V7数据集中的图像生成。每个样本包括带渲染文本的图像、对应的原始图像和单词级别的标注，标注包括文本位置的边界框和转录。该数据集适用于评估文本去除方法的性能，特别是在复杂背景上的文本去除。

The OTR dataset is a synthetic dataset for text removal, designed to address the shortcomings of existing datasets in terms of background complexity and authenticity. Developed by CyberAgent Tokyo, this dataset contains text images synthesized on complex backgrounds and their corresponding text-free images. The dataset is divided into two subsets: OTR-easy and OTR-hard, which contain 5,538 and 9,055 samples respectively. The OTR-easy subset is generated from images in the MS-COCO dataset, while the OTR-hard subset is generated from images in the Open Images V7 dataset. Each sample includes an image with rendered text, its corresponding original image, and word-level annotations, which consist of bounding boxes for text locations and transcriptions. This dataset is suitable for evaluating the performance of text removal methods, particularly for text removal on complex backgrounds.

提供机构：

CyberAgent Tokyo, Japan

创建时间：

2025-10-03

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，文本移除技术对隐私保护和图像编辑至关重要，但现有数据集常受限于人工编辑带来的伪影问题。OTR数据集采用合成方法构建，通过从Open Images V7和MS-COCO数据源筛选无文本图像，利用视觉语言模型生成语义相关的广告标语，并采用对象感知的文本布局技术，将文字精准覆盖在复杂背景区域。该流程通过Skia图形库渲染多样化字体，结合场景文本检测模型确保原始背景纯净，最终形成包含14,593对图像的高质量基准数据。

使用方法

作为评估文本移除算法的基准工具，OTR数据集支持端到端模型训练与跨域性能验证。研究者可分别使用OTR-hard和OTR-easy子集进行难度分级测试，通过配套的边界框标注与文本转录文件实现像素级精度验证。在评估环节，建议结合传统指标（PSNR/SSIM）与无参考图像质量评估指标（QualiCLIP/LIQE），以平衡像素精度与视觉感知质量。数据集采用PNG格式保存以避免压缩失真，其标准化JSON注解结构便于集成至主流深度学习框架，推动文本移除技术向创意设计等非自然场景的拓展应用。

背景与挑战

背景概述

计算机视觉领域中的文本移除技术作为图像编辑与隐私保护的关键环节，其发展长期受限于数据集的局限性。2025年由CyberAgent研究院Jan Zdenek团队提出的OTR数据集，针对现有场景文本移除基准在跨域泛化与评估准确性方面的不足，通过合成覆盖文本技术构建了面向创意设计领域的新型基准。该数据集采用视觉语言模型生成语义连贯的文本内容，结合对象感知的布局策略，在复杂背景图像上模拟广告海报等实际应用场景，为文本移除研究提供了无人工编辑伪影的纯净真值数据。

当前挑战

当前文本移除领域面临双重挑战：在任务层面，传统方法难以处理覆盖文本与复杂背景结构的语义融合，特别是在文本跨越多物体边界时保持修复区域的视觉连贯性；在数据集构建层面，现有基准如SCUT-EnsText因人工编辑导致真值图像存在像素级伪影，而合成数据集SCUT-SynText受限于简单背景布局。OTR数据集通过对象感知合成技术克服了真值污染问题，但其构建过程仍需解决文本语义与图像内容的适配性、多尺度字体渲染的视觉真实性，以及复杂纹理背景下修复效果的质量评估等核心难题。

常用场景

经典使用场景

在计算机视觉领域，OTR数据集主要应用于覆盖文本消除任务的研究与评估。该数据集通过合成方法生成覆盖在复杂背景上的文本图像，为文本消除算法提供了具有挑战性的测试环境。其典型使用场景包括评估模型在广告海报、杂志版面等创意领域中的文本消除效果，这些场景中的文本往往与图像中的多个对象重叠，要求模型具备精确的背景修复能力。

解决学术问题

OTR数据集有效解决了现有文本消除基准中存在的两大核心问题：人工编辑导致的地面真实图像存在像素级伪影，以及场景文本数据集中背景过于简单缺乏多样性。通过提供无伪影的干净地面真实数据和基于对象感知的文本布局，该数据集推动了文本消除模型在复杂背景下的泛化能力研究，并为开发更准确的评估指标奠定了基础。

实际应用

该数据集在现实应用中支撑了多个重要领域的技术发展。在隐私保护方面，可用于开发敏感信息自动遮蔽系统；在媒体内容再生产中，为视频字幕消除和广告横幅替换提供技术支撑；在图像编辑领域，则助力于智能修图工具的研发，使用户能够无缝移除图像中的干扰文字而不破坏原始视觉内容。

数据集最近研究