TextPecker

Name: TextPecker
Creator: 华中科技大学; 字节跳动
Published: 2026-02-24 21:40:23
License: 暂无描述

arXiv2026-02-24 更新2026-02-26 收录

下载链接：

https://github.com/CIawevy/TextPecker

下载链接

链接失效反馈

官方服务：

资源简介：

TextPecker是由华中科技大学与字节跳动联合构建的视觉文本渲染（VTR）结构异常标注数据集，旨在解决生成图像中文本结构失真、模糊、错位等细粒度缺陷的感知问题。该数据集包含真实生成模型产出的文本图像（含字符级结构异常标注）以及通过笔画编辑引擎合成的扩充数据，覆盖中英双语场景，数据来源包括TextAtlas5M、Lex-10k等文本语料及多模态生成模型（如Stable Diffusion、Qwen-Image）。其构建过程通过人工精细标注与合成引擎增强相结合，显著提升了结构错误类型的多样性。该数据集为文本生成模型的强化学习优化提供了细粒度结构感知能力，推动高保真视觉文本渲染技术的发展。

提供机构：

华中科技大学; 字节跳动

创建时间：

2026-02-24

搜集汇总

数据集介绍

构建方式

在视觉文本渲染领域，针对现有评估方法对结构异常感知不足的瓶颈，TextPecker数据集的构建采用了混合数据策略。其构建过程分为三个关键步骤：首先，利用多种文本到图像生成模型（如Flux、Qwen-Image等）从TextAtlas5M、Lex-10k等提示语库中生成富含文本的图像，覆盖英文和中文场景，以广泛捕捉真实的生成伪影。其次，通过人工标注对生成图像中的字符级结构异常（如笔画缺失、扭曲、模糊）进行精细标注，使用特殊标记符标识缺陷字符。最后，为解决中文字符结构异常组合爆炸问题，开发了基于笔画编辑的合成引擎，通过程序化地应用笔画删除、交换和插入等操作，生成多样化的结构异常字符，并结合SynthTIGER渲染引擎将其置于复杂背景中，从而扩展了错误覆盖范围并增强了模型的泛化能力。

特点

TextPecker数据集的核心特点在于其专注于视觉文本渲染中的细粒度结构异常感知。与传统的文本识别数据集不同，该数据集不仅包含语义信息，更提供了字符级别的结构异常标注，能够精确标识出文本的笔画缺失、扭曲、错位等细微缺陷。数据集规模庞大，总计约140万个样本，融合了真实生成图像的人工标注数据和程序化生成的合成数据，确保了错误类型的多样性和覆盖的全面性。特别针对中文文本的复杂性，其合成数据增强策略有效应对了汉字二维结构和庞大字符集带来的挑战。这种设计使得基于该数据集训练的评估器能够突破现有OCR和多模态大语言模型的结构盲区，为文本渲染的质量评估和强化学习优化提供了可靠的感知基础。

使用方法

TextPecker数据集主要用于训练和评估能够感知文本结构异常的识别模型，进而作为强化学习中的奖励函数以优化文本到图像生成模型。具体而言，训练好的结构感知评估器（基于Qwen3-VL或InternVL3架构）可对生成图像中的文本进行识别，并输出带有结构异常标记的文本序列。基于此输出，可计算两个核心指标：结构质量分数（SQ），通过量化异常字符比例来评估文本的结构保真度；语义对齐分数（SE），通过词级匹配和惩罚未匹配词汇来评估文本的语义准确性。两者的加权和构成复合奖励，可无缝集成到如Flow-GRPO等强化学习框架中，为生成模型提供同时优化语义和结构的梯度信号。此外，该评估器也可直接用于对现有文本渲染基准进行重新评估，提供更可靠的性能度量。

背景与挑战

背景概述

视觉文本渲染作为文本到图像生成领域的关键挑战，旨在生成清晰且语义一致的图像内嵌文本。然而，即使先进的生成模型也常产生结构异常文本，如扭曲、模糊和错位。现有评估方法依赖OCR或多模态大语言模型，但它们普遍缺乏对细粒度结构异常的感知能力，导致评估信号失真并阻碍基于强化学习的优化。为应对此瓶颈，华中科技大学与字节跳动的研究团队于2026年提出了TextPecker数据集及配套的强化学习策略。该数据集通过构建大规模字符级结构异常标注数据，并开发笔画编辑合成引擎以扩展错误覆盖范围，为核心研究问题——即如何量化并优化生成文本的结构保真度——提供了数据基础。其工作填补了视觉文本渲染优化领域的空白，为高保真文本生成奠定了关键基础。

当前挑战

TextPecker数据集旨在解决视觉文本渲染中结构保真度的评估与优化挑战。其核心领域挑战在于，现有OCR和MLLM评估器过度依赖语言先验，倾向于对结构缺陷文本进行语义“纠正”或幻觉生成，同时忽略或直接丢弃低置信度的模糊、扭曲文本区域，导致无法可靠感知字形层面的细微结构异常。这造成了评估信号噪声大、强化学习奖励误导的瓶颈，使得即使顶尖生成模型也难以产出结构忠实的文本。在构建过程中，研究团队面临两大挑战：一是细粒度结构异常标注数据的严重稀缺，需要人工对多种生成模型产出的文本图像进行精细的字符级缺陷标注；二是针对结构复杂、字库庞大的中文文本，其二维空间组合特性导致结构异常的组合爆炸，仅靠有限的人工标注难以覆盖，需设计程序化的笔画级合成引擎来系统性生成多样化的结构错误与规范字符，以增强模型的泛化与识别鲁棒性。

常用场景

经典使用场景

在视觉文本渲染领域，TextPecker数据集被经典地应用于训练和评估结构异常感知模型。该数据集通过精细的字符级结构异常标注，为多模态大语言模型和专用OCR模型提供了感知文本字形扭曲、模糊、错位等细微缺陷的能力。研究人员利用该数据集构建结构感知的奖励函数，在强化学习框架下优化文本到图像生成模型，从而显著提升生成文本的结构保真度。这一使用场景已成为评估和提升视觉文本渲染质量的核心基准。

衍生相关工作

TextPecker数据集衍生了一系列围绕结构感知视觉文本渲染的经典研究工作。其提出的结构异常感知奖励机制启发了后续对多奖励联合优化的探索，例如结合PickScore和美学评分以平衡文本质量与图像整体美感。数据集构建中采用的笔画编辑合成引擎也为合成数据增强提供了新范式。此外，基于该数据集训练的评估器为CVTG-2K、OneIG-Bench、LongText-Bench等基准的重新评估提供了可靠工具，推动了VTR评估标准从单纯语义准确度向语义与结构双重保真度的演进。

数据集最近研究