TCSynth
收藏github2021-11-29 更新2024-05-31 收录
下载链接:
https://github.com/esun-ai/traditional-chinese-text-recogn-dataset
下载链接
链接失效反馈官方服务:
资源简介:
TCSynth是一个用于繁体中文场景文本识别的合成数据集,包含21,535,590张合成文本图像,旨在通过模拟真实世界的文本图像来训练和评估文本识别模型。
TCSynth is a synthetic dataset designed for Traditional Chinese scene text recognition, comprising 21,535,590 synthetic text images. It aims to train and evaluate text recognition models by simulating real-world text images.
创建时间:
2021-11-17
原始信息汇总
数据集概述
合成数据集:TCSynth
- 数据量:包含21,535,590张合成文本图像。
- 下载格式:
- LMDB格式:推荐,压缩后21 GB,解压后54 GB。
- 原始格式:压缩后18 GB,解压后85 GB。
- 验证集:TCSynth-VAL,包含6,000张合成文本图像。
- LMDB格式
- 原始格式
标记数据集:TC-STR 7k-word
- 数据量:包含7,543张手动标记的文本图像。
- 数据组成:
- 训练集:3,837张图像。
- 测试集:3,706张图像。
- 下载格式:压缩文件TC-STR.tar.gz。
数据集特点
TCSynth
- 生成框架:受MJSynth、SynthText和Belval/TextRecognitionDataGenerator启发,使用多种渲染机制生成接近真实世界的文本图像。
- 渲染机制:包括单词采样、字符间距、字体类型/大小、文本着色、文本描边、文本倾斜/扭曲、背景渲染、文本位置和噪声。
TC-STR 7k-word
- 数据收集:从Google图像搜索中收集约1,554张图像,手动裁剪并标记。
- 多样性:通过不同场景和查询关键词搜索,增加收集的场景文本图像的多样性。
数据集格式
TCSynth
- LMDB格式:遵循clovaai/deep-text-recognition-benchmark的数据结构,提供工具进行数据操作。
- 原始格式:包含labels.txt文件,记录图像路径和标签。
TC-STR 7k-word
- 文件结构:包含训练和测试标签文件,以及图像文件夹。
- 标签格式:
{imagepath} {label}。
搜集汇总
数据集介绍

构建方式
TCSynth数据集的构建基于对传统中文文本识别领域的需求,采用合成数据生成技术。受MJSynth和SynthText等项目的启发,研究团队开发了一个专门用于生成传统中文场景文本图像的框架。该框架通过多种渲染机制,如字符间距、字体类型/大小、文本着色、文本描边、文本倾斜/扭曲、背景渲染、文本位置和噪声等,生成了超过2150万张合成文本图像,模拟真实世界的文本场景。此外,还收集了7000多张手工标注的真实场景文本图像,形成了TC-STR 7k-word基准数据集。
特点
TCSynth数据集的特点在于其庞大的数据量和高度仿真的合成技术。数据集包含2150万张合成文本图像,涵盖了多种字体、颜色、背景和噪声条件,能够有效模拟真实世界中的文本场景。此外,TC-STR 7k-word数据集提供了7000多张手工标注的真实场景文本图像,进一步增强了数据集的多样性和实用性。这些特点使得TCSynth数据集在训练和评估传统中文文本识别模型时具有显著优势。
使用方法
TCSynth数据集的使用方法灵活多样,支持LMDB和Raw两种格式。LMDB格式适用于高效的数据读取和存储,用户可以通过提供的工具将图像插入或从LMDB中提取。Raw格式则更适合直接查看和处理图像文件。数据集的使用步骤包括下载数据集、安装必要的依赖库、使用提供的工具进行数据处理和模型训练。用户可以根据需要选择合成数据进行从头训练,或使用TC-STR 7k-word数据集进行微调,以提升模型的识别精度。
背景与挑战
背景概述
TCSynth数据集由Yi-Chang Chen等人于2021年提出,旨在解决传统中文文本识别(Traditional Chinese Text Recognition, TCTR)领域的数据稀缺问题。该数据集包含超过2150万张合成文本图像和7000多张手工标注的真实文本图像(TC-STR 7k-word),为训练和评估文本识别模型提供了丰富的资源。TCSynth的创建灵感来源于MJSynth和SynthText等合成数据集,通过多种渲染机制生成接近真实场景的文本图像。该数据集不仅填补了传统中文文本识别领域的数据空白,还为相关研究提供了重要的基准数据,推动了该领域的技术进步。
当前挑战
TCSynth数据集面临的挑战主要体现在两个方面。首先,传统中文文本识别本身具有较高的复杂性,字符数量庞大且结构复杂,导致模型训练难度增加。其次,数据集的构建过程中,如何生成高质量的合成数据以模拟真实场景中的文本图像是一个关键挑战。尽管TCSynth通过多种渲染机制(如字体选择、字符间距、背景渲染等)提升了数据的多样性,但仍需进一步优化以更好地反映真实世界中的文本变化。此外,手工标注的真实数据(TC-STR 7k-word)虽然为模型微调提供了支持,但其规模相对较小,可能限制了模型的泛化能力。
常用场景
经典使用场景
在自然语言处理和计算机视觉领域,TCSynth数据集被广泛应用于传统中文文本识别模型的训练与验证。该数据集通过生成超过2100万张合成文本图像,极大地丰富了训练数据的多样性,使得模型能够在不同字体、颜色、背景和噪声条件下进行有效学习。特别是在缺乏公开的传统中文文本识别数据集的情况下,TCSynth为研究者提供了一个高质量的基准数据集,显著提升了模型的泛化能力和识别精度。
实际应用
TCSynth数据集在实际应用中具有广泛的价值,特别是在需要高精度文本识别的场景中,如自动驾驶、智能文档处理、广告牌识别和文化遗产数字化等。通过使用TCSynth训练出的模型,能够有效识别复杂背景下的传统中文文本,显著提升了自动化系统的效率和准确性。此外,该数据集还为多语言文本识别系统的开发提供了重要支持,推动了跨语言文本识别技术的发展。
衍生相关工作
TCSynth数据集的发布催生了一系列相关研究工作,特别是在传统中文文本识别领域。许多研究者基于该数据集开发了新的深度学习模型和优化算法,进一步提升了文本识别的性能。此外,TCSynth还启发了其他语言文本识别数据集的构建,推动了多语言文本识别技术的发展。相关研究不仅丰富了学术界的理论成果,也为工业界的实际应用提供了强有力的技术支持。
以上内容由遇见数据集搜集并总结生成



