SynthGlyph Dataset, DesignText Dataset

Name: SynthGlyph Dataset, DesignText Dataset
Creator: 北京大学王选计算机研究所
Published: 2025-12-24 00:13:55
License: 暂无描述

arXiv2025-12-24 更新2025-12-25 收录

下载链接：

https://github.com/ZYM-PKU/UTDesign

下载链接

链接失效反馈

官方服务：

资源简介：

SynthGlyph Dataset是由北京大学王选计算机研究所构建的大规模合成字符数据集，包含4194种TrueType字体渲染的6857个字符，总计约2880万条实例，支持中英文字符及符号的多样化风格迁移。DesignText Dataset则聚焦真实设计场景，收录11.55万条设计样本，涵盖背景图、文本描述及细粒度标注，通过自动化流程整合多源数据。两数据集采用合成渲染与真实标注相结合的方法构建，旨在解决图形设计中风格化文本编辑与生成的难题，为AI辅助平面设计提供高精度训练资源。

The SynthGlyph Dataset is a large-scale synthetic character dataset constructed by the Wangxuan Institute of Computer Technology, Peking University. It contains 6,857 characters rendered with 4,194 TrueType fonts, totaling approximately 28.8 million instances, and supports diverse style transfer for Chinese and English characters as well as symbols. The DesignText Dataset focuses on real-world design scenarios, collecting 115,500 design samples covering background images, text descriptions and fine-grained annotations, and integrates multi-source data via automated workflows. Both datasets are constructed by combining synthetic rendering and real annotation methods, aiming to address the challenges of stylized text editing and generation in graphic design, and provide high-precision training resources for AI-assisted graphic design.

提供机构：

北京大学王选计算机研究所

创建时间：

2025-12-24

搜集汇总

数据集介绍

构建方式

在图形设计自动化领域，高质量数据集的构建是推动模型性能提升的关键。SynthGlyph数据集通过系统化流程生成，首先收集了4,194种TrueType格式字体，并为每种字体渲染了6,857个不同字符，涵盖GB6763标准定义的中文字符及94个英文字母与符号，总计约2,880万风格化字符实例。为进一步增强数据多样性，设计了字形增强流水线，通过变化颜色与纹理渲染风格化文本，生成包含内容参考、风格参考及RGBA格式真值的三元组样本，为模型训练提供了丰富的风格迁移基础。

特点

该数据集的核心特点体现在其规模宏大与风格多样性上，不仅覆盖了中英双语字符，还通过系统化的纹理与颜色增强，模拟了真实设计场景中复杂的视觉表现。数据以RGBA格式存储，支持透明文本前景的生成，为后续的编辑与合成任务提供了极大便利。此外，数据集在构建过程中引入了高斯模糊、下采样等扰动策略，有效提升了模型在复杂条件下的泛化能力，使其能够适应多变的实际应用需求。

使用方法

SynthGlyph数据集主要用于训练基于DiT的文本风格迁移模型，支持风格化文本的精准编辑与生成。在训练过程中，模型利用内容编码器与风格编码器分别提取字形结构与风格特征，通过融合DiT块实现风格保持的文本合成。该数据集还可与DesignText数据集结合，用于多模态条件编码器的特征对齐训练，进而扩展为条件文本生成框架。最终，集成透明字形VAE解码器后，能够输出可直接融入设计图像的RGBA格式文本前景，为自动化图形设计流程提供核心数据支撑。

背景与挑战

背景概述

SynthGlyph与DesignText数据集由北京大学王选计算机研究所与金山办公软件联合构建，旨在支持图形设计图像中的风格化文本编辑与生成研究。该数据集于2025年随UTDesign框架提出，核心研究问题聚焦于解决扩散模型在非拉丁文字（如中文）与小尺度排版上的文本渲染局限性，以提升AI辅助图形设计的自动化水平。通过大规模合成字形数据与精细化标注的真实设计图像，该数据集为风格迁移、条件生成等任务提供了关键训练资源，推动了多语言文本渲染技术的发展，对视觉内容生成领域具有显著影响力。

当前挑战

SynthGlyph与DesignText数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，需应对图形设计中风格化文本的高精度编辑与生成难题，包括保持字体风格一致性、处理复杂纹理与色彩，以及支持中英文双语渲染；其二，在构建过程中，挑战涉及大规模合成数据的多样性与真实性平衡，如从数千种字体生成数千万字形实例，同时需设计自动化流程从真实设计图像中提取精细文本标注与透明前景，并确保数据质量以支撑模型训练。

常用场景

经典使用场景

在自动化平面设计领域，SynthGlyph与DesignText数据集为UTDesign框架提供了核心训练基础。SynthGlyph数据集通过合成大量风格化字符，支持模型学习字体样式与内容的解耦表示，而DesignText数据集则提供真实设计场景的精细标注，使模型能够适应复杂的背景与布局条件。这两个数据集共同支撑了风格化文本编辑与生成任务，实现了从单一字符样式迁移到完整设计图像合成的技术跨越。

解决学术问题

该数据集有效解决了生成式人工智能在平面设计中面临的关键挑战，即小尺度排版与非拉丁文字（如中文）的精准渲染问题。通过提供大规模、多样化的风格化字符样本与真实设计图像的细粒度标注，数据集使模型能够学习字体风格的一致性保持与复杂背景下的文本合成能力。这不仅提升了文本渲染的准确性与美学质量，还为多语言设计自动化奠定了数据基础，推动了视觉文本生成领域的算法进步。

衍生相关工作

SynthGlyph与DesignText数据集的构建理念与方法论启发了后续一系列相关研究。例如，在文本到设计（T2D）系统开发中，研究者借鉴其多阶段训练策略与透明文本前景生成技术，提升了布局规划与文本渲染的协同性能。同时，数据集的标注框架也被应用于更广泛的视觉文本理解任务，如多语言文档图像合成、艺术字生成等，促进了跨模态设计生成模型的算法创新与工程实践。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集