UnionST-S, UnionST-P, UnionST-R

github2026-02-06 更新2026-02-17 收录

下载链接：

https://github.com/YesianRohn/UnionST

下载链接

链接失效反馈

官方服务：

资源简介：

UnionST-S、UnionST-P和UnionST-R数据集（每个包含500万个样本）可以从Huggingface下载。我们采用了主流STR协议所使用的lmdb文件格式。

The UnionST-S, UnionST-P, and UnionST-R datasets, each containing 5 million samples, are available for download from Hugging Face. We adopt the LMDB file format used by mainstream STR protocols.

创建时间：

2026-02-06

原始信息汇总

UnionST 数据集概述

数据集名称

UnionST

数据集简介

UnionST 是一个用于场景文本识别（STR）的强合成引擎，旨在解决现有基于渲染的合成数据在语料库/字体/布局方面多样性不足以及与真实世界文本存在较大领域差距的问题。其官方数据合成代码对应论文《What’s Wrong with Synthetic Data for Scene Text Recognition? A Strong Synthetic Engine with Diverse Simulations and Self-Evolution》。

关键优势

100% 标签正确性：基于渲染的范式确保了准确的标签。
高成本效益：基于 CPU 的生成成本仅为基于扩散方法的 1/20，闭源替代方案的 1/10,000。
强大性能：UnionST-S（5M 样本）在具有挑战性的 STR 基准测试中优于 36M 规模的传统合成数据集。

数据集构成与获取

数据集包含三个子集，每个子集包含 500 万（5M）个样本：

UnionST-S
UnionST-P
UnionST-R

数据采用主流 STR 协议使用的 lmdb 文件格式。下载地址：https://huggingface.co/datasets/Yesianrohn/UnionST

训练模型

推荐训练框架：OpenOCR（https://github.com/Topdu/OpenOCR）
部分已训练模型可在以下地址找到：https://huggingface.co/Yesianrohn/UnionST-Models

许可证

UnionST：Copyright (c) 2025-present YesianRohn
基于 SynthTIGER：Copyright (c) 2021-present NAVER Corp.

致谢

感谢以下开源代码/数据集：

SynthText (https://github.com/ankush-me/SynthText)
SynthTIGER (https://github.com/clovaai/synthtiger)
SVTRv2 (https://github.com/Topdu/OpenOCR/blob/main/docs/svtrv2.md)
Union14M (https://github.com/Mountchicken/Union14M) 特别感谢训练框架 OpenOCR (https://github.com/Topdu/OpenOCR)。

搜集汇总

数据集介绍

构建方式

在场景文本识别领域，高质量训练数据的匮乏长期制约着模型性能的提升。UnionST系列数据集采用基于渲染的合成范式，通过精心设计的引擎生成多样化的文本图像。该引擎在CPU上运行，显著降低了计算成本，同时确保了标签的绝对准确性。合成过程融合了丰富的字体库、语料库以及布局变体，有效模拟了真实世界文本的复杂形态，从而弥合了合成数据与真实数据之间的域差距。

使用方法

为便于研究者使用，UnionST数据集以主流的lmdb文件格式发布，可通过Huggingface平台获取。用户可直接将其集成至现有的场景文本识别训练流程中。官方推荐使用OpenOCR训练框架，并提供了相应的配置文件，通过简单的命令行指令即可启动模型训练。此外，基于该数据集预训练的部分模型也已公开，可供进一步微调或直接评估，为相关研究提供了坚实的实验基础。

背景与挑战

背景概述

场景文本识别作为计算机视觉领域的关键任务，其性能高度依赖于大规模、高质量的标注数据。传统人工标注成本高昂且规模有限，促使合成数据成为重要的替代方案。UnionST系列数据集由YesianRohn团队于2025年提出，旨在通过渲染式合成引擎解决现有合成数据多样性不足、与真实场景存在显著域差距的核心问题。该数据集采用创新的自进化机制与多样化模拟策略，在保证标签准确性的前提下，以极低的计算成本生成具有高度真实性的文本图像，显著提升了模型在复杂场景下的泛化能力，为场景文本识别研究提供了新的数据范式。

当前挑战

场景文本识别领域长期面临合成数据与真实数据分布不一致的挑战，具体表现为字体、语料库和版面布局的多样性缺失，导致模型在实际应用中泛化性能下降。UnionST在构建过程中需克服渲染引擎对复杂背景、光照变化和文本形变等真实场景要素的模拟难题，同时需在保证数据生成效率的前提下，实现语义连贯性与视觉真实性的平衡。此外，如何通过自进化机制动态优化合成策略，以持续缩小合成域与真实域之间的差距，亦是该数据集构建过程中的关键挑战。

常用场景

经典使用场景

在场景文本识别领域，合成数据因其成本效益而备受青睐，但传统合成数据集常受限于多样性不足和与现实文本的领域鸿沟。UnionST系列数据集通过渲染引擎生成高保真文本图像，其经典使用场景在于为STR模型提供大规模、多样化的训练样本。这些数据集在语料库、字体和布局层面引入丰富变异，有效模拟真实世界文本的复杂性，从而成为训练高性能识别模型的关键资源。

解决学术问题

UnionST数据集主要解决了场景文本识别研究中合成数据质量与多样性不足的核心问题。传统合成数据往往缺乏足够的语料变化和字体样式，导致模型泛化能力受限。该数据集通过增强的渲染技术和自进化机制，显著缩小了合成与真实文本之间的领域差距，为学术研究提供了可靠且高效的训练基准，推动了STR领域在数据合成方法论上的进步。

实际应用

在实际应用中，UnionST数据集广泛支持各类场景文本识别系统的开发与优化。例如，在自动驾驶系统中，它用于训练车辆识别路牌和交通标志的模型；在零售行业，辅助商品标签和价格牌的自动读取；在文档数字化过程中，提升复杂版面文本的识别精度。其高保真合成数据能够有效降低对昂贵人工标注数据的依赖，加速实际部署系统的迭代与升级。

数据集最近研究