GlyphCorrector

Name: GlyphCorrector
Creator: 复旦大学·大数据学院; 南洋理工大学·生成式人工智能实验室
Published: 2026-03-17 01:59:31
License: 暂无描述

arXiv2026-03-17 更新2026-03-18 收录

下载链接：

https://henghuiding.com/GlyphPrinter/

下载链接

链接失效反馈

官方服务：

资源简介：

GlyphCorrector是由复旦大学与南洋理工大学联合构建的区域级字形偏好数据集，包含7,117张基于879组提示-字形条件生成的图像，覆盖中英文复杂字符。该数据集通过人工标注正确与错误的局部字形区域（如笔画缺失或冗余），为文本渲染模型提供细粒度优化依据。其构建过程包括：1）从合成文本图像中采样条件；2）替换字符生成新组合；3）人工标注局部字形错误。该数据集旨在解决多语言场景下字形生成不准确的问题，尤其针对OCR模型难以识别的精细笔画错误，推动视觉文本生成在广告设计、多语言界面等领域的精准应用。

GlyphCorrector is a regional glyph preference dataset jointly constructed by Fudan University and Nanyang Technological University. It contains 7,117 images generated based on 879 sets of prompt-glyph conditions, covering complex characters in both Chinese and English. This dataset manually annotates correct and incorrect local glyph regions (such as missing or redundant strokes), providing fine-grained optimization basis for text rendering models. Its construction process includes three steps: 1) Sampling conditions from synthetic text images; 2) Generating new combinations via character replacement; 3) Manually annotating local glyph errors. This dataset aims to solve the problem of inaccurate glyph generation in multilingual scenarios, especially the fine stroke errors that are difficult for OCR models to recognize, so as to promote the precise application of visual text generation in fields such as advertising design and multilingual interfaces.

提供机构：

复旦大学·大数据学院; 南洋理工大学·生成式人工智能实验室

创建时间：

2026-03-17

原始信息汇总

GlyphPrinter数据集概述

数据集名称

GlyphPrinter / GlyphCorrector

核心目标

解决视觉文本渲染中生成准确字形（glyph）的挑战，特别是在复杂汉字或表情符号等具有挑战性的场景中。

关键方法

主要方法：提出一种基于偏好的文本渲染方法GlyphPrinter，消除了对显式奖励模型的依赖。
核心创新：
- 构建了具有区域级字形偏好标注的数据集GlyphCorrector。
- 提出了区域分组直接偏好优化（Region-Grouped Direct Preference Optimization, R-GDPO），这是一种基于区域的目标，可在标注区域上优化样本间和样本内偏好，从而显著提高字形准确性。
- 引入了区域奖励引导（Regional Reward Guidance, RRG），作为一种推理策略，可从具有可控字形准确性的最优分布中进行采样。

方法流程

训练阶段1：首先在收集的文本图像（合成和真实）上对底层文本到图像（T2I）模型进行微调，以提高文本渲染能力，获得基线模型。
训练阶段2：基于GlyphCorrector数据集，使用提出的R-GDPO优化GlyphPrinter，以增强字形准确性。

评估场景

实验评估模型在多种场景下的字形准确性：

多语言文本渲染
复杂文本渲染（例如，复杂汉字）
域外文本渲染（例如，表情符号）

相关论文

会议：CVPR 2026
标题：GlyphPrinter: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering
作者：Xincheng Shuai, Ziye Li, Henghui Ding, Dacheng Tao
机构：复旦大学，南洋理工大学
论文链接：https://henghuiding.com/GlyphPrinter/
BibTeX：

@inproceedings{GlyphPrinter, title={{GlyphPrinter}: Region-Grouped Direct Preference Optimization for Glyph-Accurate Visual Text Rendering}, author={Shuai, Xincheng and Li, Ziye and Ding, Henghui and Tao, Dacheng}, booktitle={CVPR}, year={2026} }

搜集汇总

数据集介绍

构建方式

在视觉文本渲染领域，GlyphCorrector数据集的构建旨在解决现有方法在复杂字形和跨域字符渲染中的准确性不足问题。该数据集通过系统化流程生成区域级偏好标注：首先从真实场景文本图像中采样提示-字形对，随后将文本条件替换为包含英文和中文字符的池中字符，形成新的字形条件。针对每个新条件，利用基础模型生成一组候选图像，并由人工标注者逐幅标注正确与错误的文本区域，从而构建能够捕捉局部字形准确性的偏好对。最终，数据集涵盖897个字形条件下的7,117幅图像，为区域级优化提供了精细的标注基础。

使用方法

GlyphCorrector数据集主要用于训练基于区域分组直接偏好优化的文本渲染模型GlyphPrinter。在模型训练过程中，数据集通过区域级偏好对驱动区域分组直接偏好优化目标，使模型能够从正确区域学习并规避错误区域。具体而言，数据集支持构建样本间和样本内偏好掩码：样本间掩码用于比较不同图像中同一区域的准确性，而样本内掩码则利用同一图像中的正确与错误区域形成对比。在推理阶段，数据集还可结合区域奖励引导策略，通过调节采样分布中的正则化权重，实现对字形准确性的可控优化，从而在保持图像风格化的同时提升渲染精度。

背景与挑战

背景概述

GlyphCorrector数据集由复旦大学大数据学院与南洋理工大学生成式人工智能实验室的研究团队于2026年联合构建，旨在解决视觉文本生成领域中字形保真度的核心难题。该数据集作为GlyphPrinter方法的关键组成部分，聚焦于通过区域级偏好标注优化生成模型对复杂字形、多语言及超领域文本的渲染准确性。其创新性地将人类校对字形错误的认知过程转化为结构化数据，推动了基于偏好优化的文本生成范式发展，显著提升了生成图像中文字结构的精确性，对平面设计、多模态内容创作等应用领域产生了深远影响。

当前挑战

该数据集致力于应对视觉文本生成中字形准确性的双重挑战。在领域问题层面，现有方法依赖大规模场景文本图像训练，但字形变体覆盖有限与过度风格化常导致复杂字符、生僻字或表情符号等字形细节丢失，传统基于文本识别的奖励模型对细微字形错误不敏感，无法有效区分正确与错误样本。在构建过程中，研究团队需克服区域级偏好标注的复杂性，包括如何准确定位图像中局部字形错误区域、设计跨样本与样本内的偏好对构建机制，以及确保标注数据在多样化的字形条件与视觉风格下保持一致性，这些挑战共同促成了区域分组直接偏好优化方法的提出。

常用场景

经典使用场景

在视觉文本渲染领域，GlyphCorrector数据集被广泛应用于提升字形准确性。该数据集通过区域级偏好标注，为模型提供了精细的局部字形正确性反馈，使得基于直接偏好优化的方法能够更有效地学习复杂字符的细节结构。在生成包含多语言文本或复杂汉字的图像时，GlyphCorrector帮助模型区分正确与错误的字形区域，从而在保持图像风格多样性的同时，显著提高渲染精度。

解决学术问题

GlyphCorrector数据集主要解决了视觉文本渲染中字形准确性不足的学术难题。传统方法依赖大规模场景文本图像训练，但字形覆盖有限且过度风格化，导致复杂或生僻字符渲染错误。该数据集通过区域级偏好标注，使模型能够学习局部字形正确性，避免了基于文本识别模型的奖励函数对细微字形错误不敏感的问题。其意义在于推动了偏好对齐技术在图像生成领域的应用，为高精度文本渲染提供了可靠的数据基础。

实际应用

在实际应用中，GlyphCorrector数据集支持了广告设计、多语言界面生成和文化传播等场景。例如，在生成包含中文成语“魑魅魍魉”或波斯地毯图案“氍毹”的视觉内容时，该数据集帮助模型准确渲染字形细节，避免笔画缺失或冗余。此外，在跨语言海报制作和个性化字体设计中，基于该数据集的系统能够确保文本可读性与艺术风格的平衡，提升了自动化内容创作的实用价值。

数据集最近研究