Real-CE

Name: Real-CE
Creator: 香港理工大学; OPPO研究院
Published: 2023-08-07 10:57:48
License: 暂无描述

arXiv2023-08-07 更新2024-06-21 收录

下载链接：

https://github.com/mjq11302010044/Real-CE

下载链接

链接失效反馈

官方服务：

资源简介：

Real-CE数据集是由香港理工大学和OPPO研究院联合创建的，专注于中英文场景文本图像超分辨率的实际应用。该数据集包含1,935对训练图像和783对测试图像，总计33,789条文本行，其中24,666条为中文，9,123条为英文。数据集通过多种场景和资源收集，确保了文本内容、呈现和光照条件的多样性。创建过程中，使用了不同焦距的相机模块来捕捉图像，并通过图像注册方法进行对齐。Real-CE数据集旨在解决现有数据集在处理结构复杂的中文文本时的不足，通过提供详细的标注信息，如检测框和文本转录，来辅助训练和评估。此外，数据集还设计了适应不同文本行大小的评估流程，以保持超分辨率文本图像的视觉质量。

Real-CE Dataset was jointly created by The Hong Kong Polytechnic University and OPPO Research Institute, focusing on practical applications of super-resolution for scene text images in both Chinese and English scenarios. This dataset contains 1,935 pairs of training images and 783 pairs of test images, with a total of 33,789 text lines, among which 24,666 are Chinese and 9,123 are English. The dataset is collected from diverse scenes and resources to ensure the diversity of text content, presentation styles and lighting conditions. During the creation process, camera modules with different focal lengths were used to capture images, and alignment was performed via image registration methods. The Real-CE Dataset aims to address the shortcomings of existing datasets when handling structurally complex Chinese text, and assists model training and evaluation by providing detailed annotation information such as detection bounding boxes and text transcriptions. Furthermore, the dataset designs an evaluation pipeline adapted to different text line sizes to maintain the visual quality of super-resolved text images.

提供机构：

香港理工大学; OPPO研究院

创建时间：

2023-08-07

搜集汇总

数据集介绍

构建方式

该数据集通过数据收集、图像配准、文本裁剪和文本标注等多个步骤构建而成。首先，使用iPhone 11 Pro和iPhone 12 Pro手机收集中文和英文文本图像，这些手机配备有三个固定焦距的摄像头模块，能够以不同的焦距捕捉相同的场景，从而支持2×和4×缩放模式的STISR模型训练。其次，采用Cai等人提出的图像配准方法对LR和HR文本图像对进行对齐，确保图像对的精确度。然后，从LR和HR图像中裁剪出中央文本区域，并进行手动调整，以确保LR-HR图像对的准确性。最后，除了HR真实图像外，还提供了检测框和文本转录两个额外的文本标签，用于辅助STISR模型的训练和评估。

特点

Real-CE数据集具有以下特点：1. 包含1935/783对真实世界的LR-HR文本图像，共计33789条文本行，支持2×和4×缩放模式。2. 提供详细的图像标注，包括检测框和文本转录，有助于STISR模型的训练和评估。3. 适应不同尺寸的文本行，避免文本变形，保留SR文本图像的视觉质量。4. 设计了边缘感知学习方法，利用文本边缘图作为网络输入和结构损失，有效重建汉字的密集结构。

使用方法

使用Real-CE数据集时，首先需要将训练数据集和测试数据集分别加载到模型中。然后，使用Adam优化器对模型进行训练，训练轮数设置为400轮，学习率设置为2×10^-4。在计算边缘感知损失时，采用预训练的VGG19网络提取特征。最后，将训练好的模型应用于测试数据集，并使用PSNR、SSIM、LPIPS、NED和ACC等指标对模型的性能进行评估。

背景与挑战

背景概述

场景文本图像超分辨率（STISR）是计算机视觉领域的一个重要研究方向，旨在从低分辨率（LR）输入中恢复具有视觉愉悦性和可读性的高分辨率（HR）场景文本图像。现有的研究主要集中于相对简单的英文文本，而对结构复杂、字符众多的中文文本的研究相对较少。为了填补这一空白，本研究提出了一个名为Real-CE的真实世界中文-英文基准数据集，重点关注结构复杂的中文字符的恢复。该基准数据集提供了1,935/783个真实世界的LR-HR文本图像对，并配备了详细的注释，包括检测框和文本转录。此外，本研究还设计了一种边缘感知学习方法，该方法在图像和特征域中提供结构监督，以有效地重建中文字符的密集结构。实验结果表明，在Real-CE基准上训练的模型在中文文本超分辨率方面优于TextZoom数据集，并且边缘感知学习可以进一步促进文本图像的质量。

当前挑战

Real-CE数据集面临的挑战包括：1)中文文本的结构复杂性和字符众多，对STISR模型提出了更高的要求；2)构建过程中需要解决图像配准、文本裁剪和文本标注等问题；3)评估过程中需要考虑不同大小的文本行，以避免因缩放操作导致的文本变形；4)边缘感知学习方法需要进一步研究，以提高对低分辨率和复杂结构字符的恢复效果。

常用场景

经典使用场景

Real-CE 数据集主要用于场景文本图像超分辨率（STISR）任务，旨在从低分辨率（LR）输入中恢复具有视觉愉悦和可读文本内容的高分辨率（HR）场景文本图像。该数据集特别强调恢复结构复杂的汉字。数据集提供了 1,935/783 个真实世界的 LR-HR 文本图像对（包含 33,789 行文本），用于 2× 和 4× 缩放模式的训练和测试。此外，还提供了详细的注释，包括检测框和文本转录，以辅助训练和评估。

衍生相关工作

Real-CE 数据集的提出推动了场景文本图像超分辨率研究的发展，并衍生出一系列相关工作。例如，一些研究人员基于 Real-CE 数据集提出了新的 STISR 模型和损失函数，以进一步提高文本图像的质量和可读性。此外，Real-CE 数据集还促进了跨语言 STISR 研究的发展，例如中文-英文文本图像超分辨率研究。此外，Real-CE 数据集还为其他相关研究提供了参考和借鉴，例如场景文本识别、文本检测等。

数据集最近研究