TS-TR (Real) 和 STS-TR (Synthetic)
收藏github2024-11-14 更新2024-11-28 收录
下载链接:
https://github.com/serdaryildiz/MViT-TR
下载链接
链接失效反馈官方服务:
资源简介:
TS-TR (Real) 是一个真实世界的土耳其文本数据集,包含2000张图片和7288个文本实例。STS-TR (Synthetic) 是一个合成数据集,包含1200万个样本,使用多种增强方法生成。
TS-TR (Real) is a real-world Turkish text dataset containing 2000 images and 7288 text instances. STS-TR (Synthetic) is a synthetic dataset with 12 million samples, which was generated using multiple augmentation methods.
创建时间:
2024-10-28
原始信息汇总
MViT-TR: Masked Vision Transformer for Text Recognition
概述
MViT-TR(用于文本识别的掩码视觉Transformer)是一种新颖的基于Transformer的模型,专门用于土耳其场景文本识别。该模型通过结合位置注意力模块和Transformer,解决了土耳其语言中特有的挑战,如变音符号和特定字符,并在土耳其STR任务中实现了最先进的成果。
数据集
| 数据集 | 图像数量 | 文本实例数量 | 类型 | 下载链接 |
|---|---|---|---|---|
| TS-TR (Real) | 2000 | 7288 | 真实世界土耳其文本 | Download |
| STS-TR (Synthetic) | - | 12 million | 合成文本 | Download |
- TS-TR数据集是一个真实世界的土耳其文本集合,涵盖了各种城市和自然场景。
- STS-TR数据集是一个包含1200万样本的合成数据集,使用多种增强方法生成。
性能比较
| 模型 | FPS | TS-TR 词准确率 |
|---|---|---|
| CRNN | 801 (±1.3) | 91.49% |
| ViTSTR | 696 (±11.6) | 93.51% |
| ABINet | 168 (±1.9) | 93.70% |
| TRBA | 168 (±1.5) | 94.23% |
| PARSeq | 192 (±2.0) | 95.33% |
| MViT-STR | 353 (±5.9) | 94.42% |
MViT-TR在土耳其STR任务中实现了高识别精度和效率,适用于实际应用。
搜集汇总
数据集介绍

构建方式
在计算机视觉领域,场景文本识别(STR)的研究日益受到重视,然而针对土耳其语的STR数据集却相对匮乏。为此,研究者构建了土耳其场景文本识别(TS-TR)数据集,该数据集包含7288个真实世界中的土耳其语文本实例,涵盖了城市和自然场景中的多种文本。此外,为了弥补真实数据量的不足,研究者还创建了合成土耳其场景文本识别(STS-TR)数据集,该数据集通过一种新颖的基于直方图的方法生成了1200万个合成样本,这种方法相较于传统的合成数据生成方法更为高效。
特点
TS-TR数据集的特点在于其真实性,提供了丰富的土耳其语场景文本实例,有助于模型在真实环境中的表现。而STS-TR数据集则以其庞大的样本量和多样化的合成文本为特点,能够有效提升模型的泛化能力和训练效率。两者结合,既保证了数据的多样性,又提高了数据集的规模,为土耳其语场景文本识别的研究提供了坚实的基础。
使用方法
使用TS-TR和STS-TR数据集进行训练和评估时,首先需克隆MViT-TR模型库并安装相关依赖。随后,可以选择在STS-TR合成数据上进行初步训练,然后使用TS-TR真实数据进行微调。评估阶段,可通过运行测试脚本并指定配置文件和模型权重路径来评估模型的性能。此外,数据集的下载链接和详细的使用指南均可在相关文档中找到,确保用户能够顺利进行实验和研究。
背景与挑战
背景概述
在计算机视觉领域,场景文本识别(Scene Text Recognition, STR)逐渐成为研究热点。然而,针对特定语言如土耳其语的STR研究却相对匮乏,主要原因在于缺乏全面且高质量的数据集。现有数据集普遍面临样本数量有限和高噪声水平的问题,严重制约了STR研究和应用的发展。为此,Serdar Yıldız等研究人员于2024年推出了土耳其场景文本识别(TS-TR)数据集,该数据集包含7288个文本实例,是目前最全面的STR数据集之一。此外,研究人员还创建了合成土耳其场景文本识别(STS-TR)数据集,通过创新的直方图方法生成了1200万个样本,显著提升了数据生成效率。这些数据集的推出,不仅填补了土耳其语STR研究的空白,也为全球STR研究提供了宝贵的资源。
当前挑战
TS-TR和STS-TR数据集的构建过程中面临多项挑战。首先,土耳其语特有的变音符号和语言特定字符增加了文本识别的复杂性。其次,合成数据的生成需要克服传统方法的低效问题,研究人员通过创新的直方图方法成功解决了这一难题。此外,数据集的标注和清洗过程也面临高噪声和样本不均衡的挑战。在应用层面,如何有效利用合成数据提升模型性能,以及如何在实际场景中部署高精度的STR模型,仍是研究人员需要解决的关键问题。
常用场景
经典使用场景
在计算机视觉领域,场景文本识别(STR)技术的进步依赖于高质量的数据集。TS-TR(Real)和STS-TR(Synthetic)数据集为土耳其语场景文本识别提供了丰富的资源。TS-TR数据集包含7288个真实世界的土耳其语文本实例,适用于训练和验证模型在复杂环境中的识别能力。STS-TR数据集则通过合成方法生成了1200万个样本,极大地扩展了训练数据的规模和多样性,有助于提升模型的泛化能力和鲁棒性。
衍生相关工作
基于TS-TR和STS-TR数据集,研究人员开发了多种先进的文本识别模型,如MViT-TR(Masked Vision Transformer for Text Recognition)。这些模型不仅在土耳其语场景文本识别任务中取得了优异的成绩,还激发了关于位置注意力模块和补丁掩码技术在STR中应用的研究。此外,这些数据集的公开也促进了跨语言文本识别技术的交流与合作,推动了整个STR领域的创新与发展。
数据集最近研究
最新研究方向
在计算机视觉领域,场景文本识别(STR)的研究正逐步深入,尤其是针对土耳其语这一具有独特挑战性的语言。TS-TR(真实)和STS-TR(合成)数据集的引入,为土耳其语STR研究提供了丰富的资源。最新研究方向主要集中在利用合成数据集(STS-TR)来提升模型性能,通过创新的直方图方法生成大量样本,有效解决了传统数据集样本量不足和高噪声的问题。此外,研究还探索了掩码视觉变换器(MViT-TR)在文本识别中的应用,通过位置注意力模块的结合,显著提高了识别精度,达到了94.42%的词准确率。这些进展不仅推动了土耳其语STR技术的发展,也为其他语言的STR研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成



