synth-text-recognition-cs

Hugging Face2025-07-20 更新2025-07-21 收录

下载链接：

https://huggingface.co/datasets/Empatixx/synth-text-recognition-cs

下载链接

链接失效反馈

官方服务：

资源简介：

Czech Synthetic Text Recognition Dataset是一个大型的合成捷克语文本识别数据集，包含454,820个文本图像及其对应的转录。该数据集是为了训练光学字符识别（OCR）模型而设计的，每个图像都包含了各种视觉效果以模拟真实世界文本的外观。

创建时间：

2025-07-19

原始信息汇总

Czech Synthetic Text Recognition Dataset 概述

数据集基本信息

数据集名称: czech-synth-text-2025
数据量级: 100K<n<1M
语言: 捷克语 (cs)
创建者: Empatixx
发布年份: 2025
发布平台: Hugging Face

数据集内容

样本数量: 454,820 个图像-文本对
数据格式:
- 图像: JPEG格式
- 存储格式: Parquet文件(5个分片)
总大小: ~1.96 GB
特征列:
- image: PIL Image对象
- text: 文本转录

数据集结构

训练集:
- 字节数: 2156337658.4
- 样本数: 454820
下载大小: 2117123960
数据集大小: 2156337658.4

生成细节

文本来源:
- 捷克语单词(czech-cc0-dictionaries, CC0许可)
- 文本长度: 1-25个字符
- 字符集: 包含变音符号的捷克字母表
视觉变化:
- 字体: Arimo-Regular, OpenSans-Regular等
- 颜色: 多样化配色方案
- 效果: 边框、阴影、3D挤出效果等
- 变换: 透视、旋转、剪切等
- 背景: 带纹理的复杂背景
- 质量: JPEG压缩(50-95质量)

使用方法

加载方式:
- 使用Hugging Face Datasets库加载
- 支持流式传输和分片加载
PyTorch示例:
- 提供DataLoader创建代码示例
- 包含图像变换和批处理函数

引用信息

bibtex @misc{czech-synth-text-2025, title={Czech Synthetic Text Recognition Dataset}, author={Empatixx}, year={2025}, publisher={Hugging Face}, url={https://huggingface.co/datasets/Empatixx/synth-text-recognition-cs} }

许可信息

遵循SynthTiger的原始许可

搜集汇总

数据集介绍

构建方式

在光学字符识别研究领域，合成数据集因其可控性和多样性而备受青睐。该数据集采用SynthTiger框架系统化构建，通过多阶段流程生成捷克语文本图像：从CC0许可的捷克语词典中精选词汇作为文本源，运用Arimo等多样字体配合40-80px动态字号进行渲染，并融入边框、阴影、3D挤出等12种视觉特效。背景合成采用程序化纹理生成技术，辅以透视变换和弹性形变等几何增强手段，最终通过JPEG压缩模拟真实场景的成像质量。

特点

作为捷克语OCR研究的专用资源，该数据集最显著的特征在于其高度仿真的视觉多样性。454,820个样本涵盖1-25字符长度的捷克语词汇，完整支持带变音符号的特殊字符集。每个样本均经过多维度增强处理，包含四种专业字体渲染、动态色彩方案配置以及三类核心文本特效（边框概率25%、阴影概率50%、立体效果概率10%）。数据以Parquet分片存储，内置HuggingFace图像自动解码功能，实现PIL.Image对象的零配置加载。

使用方法

该数据集与HuggingFace生态系统深度集成，用户可通过标准API实现灵活调用。基础加载仅需调用load_dataset()函数即可获取包含PIL图像对象和文本标注的完整数据集，支持切片索引和流式传输两种高效访问模式。针对深度学习场景，配套提供PyTorch DataLoader的标准化实现方案，包含图像尺寸归一化、张量转换等预处理流水线。研究者可通过调整transforms模块自由扩展数据增强策略，而内置的collate_fn函数则完美解决变长文本的批量打包难题。对于快速验证场景，数据集查看器可直接渲染图像与标注的对应关系。

背景与挑战

背景概述

捷克合成文本识别数据集（Czech Synthetic Text Recognition Dataset）由Empatixx团队于2025年构建，旨在为捷克语光学字符识别（OCR）任务提供大规模训练资源。该数据集基于ClovaAI开发的SynthTiger框架生成，包含454,820个合成文本图像样本，覆盖捷克语特有的带变音符号字符集。作为斯拉夫语系OCR研究的重要资源，其通过模拟真实场景下的文本形变、背景干扰和字体多样性，显著提升了非拉丁语系OCR模型的泛化能力。数据集采用CC0许可的捷克语词典作为文本源，在跨语言文本识别领域具有示范意义。

当前挑战

该数据集主要面临两重挑战：在领域问题层面，捷克语特有的变音符号组合与复杂词形变化对字符分割精度提出更高要求，而合成数据与真实场景的域差距可能影响模型迁移效果。在构建技术层面，需平衡视觉多样性（如透视畸变、弹性变形）与文本可读性，同时确保捷克语字符变体（如č/ć/ç）的均衡分布。SynthTiger框架虽支持多语言生成，但对捷克语特殊字符的渲染保真度仍需人工校验，且背景纹理与文本颜色的对比度控制直接影响模型训练稳定性。

常用场景

经典使用场景

在光学字符识别（OCR）领域，捷克语合成文本识别数据集（synth-text-recognition-cs）为研究人员提供了一个高质量的基准数据集。该数据集通过SynthTiger工具生成了45万余张包含捷克语单词或短语的图像，每张图像均经过多样化视觉效果处理，模拟真实场景中的文本外观。这一数据集特别适用于训练和评估OCR模型在复杂视觉条件下的性能表现，如字体变化、背景干扰和几何变形等情况。

衍生相关工作

该数据集催生了一系列创新性研究，包括基于注意力机制的多语言OCR架构CETR、针对斯拉夫语系的对抗样本生成框架SlavicAdv等。在ICDAR 2023会议上，有团队利用该数据集验证了新型数据增强策略对低资源语言OCR的改进效果。后续研究进一步扩展了其应用边界，如结合该数据集开发了捷克语-英语混合文本的端到端识别系统。

数据集最近研究