STS-TR

github2024-11-13 更新2024-11-14 收录

下载链接：

https://github.com/serdaryildiz/STS-TR

下载链接

链接失效反馈

官方服务：

资源简介：

STS-TR数据集是一个综合的合成数据集，旨在补充真实的土耳其场景文本识别（TS-TR）数据集，包含超过1200万个合成样本，模拟各种文本场景。它包括多种土耳其单词和短语，以不同的字体、大小和方向渲染在通用背景场景上，并添加了阴影、模糊和环境扭曲等现实效果。该数据集增强了训练数据的可用性，特别是针对土耳其语言的模型。

The STS-TR dataset is a comprehensive synthetic dataset intended to complement real-world Turkish Scene Text Recognition (TS-TR) datasets. It comprises over 12 million synthetic samples that simulate a wide range of text scenarios. The dataset includes diverse Turkish words and phrases, rendered onto generic background scenes with varying fonts, sizes, and orientations, and incorporates realistic effects such as shadows, blurring, and ambient distortions. This dataset enhances the availability of training data, particularly for models targeting the Turkish language.

创建时间：

2024-10-28

原始信息汇总

STS-TR: Synthetic Turkish Scene Text Recognition Dataset

概述

STS-TR数据集是一个综合的合成数据集，旨在补充真实的土耳其场景文本识别（TS-TR）数据集。该数据集包含超过1200万个合成样本，模拟了各种文本场景。它包括多种土耳其单词和短语，以不同的字体、大小和方向渲染在通用背景场景上，并添加了阴影、模糊和环境失真等现实效果。该数据集增强了针对土耳其语言的模型的训练数据可用性。

示例

STS-TR数据集样本

引用

如果发现此工作有用，请引用我们的论文： bibtex @article{YILDIZ2024101881, title = {Turkish scene text recognition: Introducing extensive real and synthetic datasets and a novel recognition model}, journal = {Engineering Science and Technology, an International Journal}, volume = {60}, pages = {101881}, year = {2024}, issn = {2215-0986}, doi = {https://doi.org/10.1016/j.jestch.2024.101881}, url = {https://www.sciencedirect.com/science/article/pii/S2215098624002672}, author = {Serdar Yıldız}, keywords = {Scene text recognition dataset, Synthetic scene text recognition dataset, Patch masking, Position attention, Vision transformers}, }

下载

Kaggle

搜集汇总

数据集介绍

构建方式

STS-TR数据集通过合成技术构建，旨在补充现有的土耳其场景文本识别（TS-TR）数据集。该数据集包含超过1200万条合成样本，模拟了各种文本场景。具体构建过程中，数据集采用了多种土耳其语词汇和短语，并将其渲染在不同字体、大小和方向的背景下，同时添加了阴影、模糊和环境失真等真实效果。这一过程确保了数据集的多样性和真实性，从而为模型训练提供了丰富的数据资源。

特点

STS-TR数据集的主要特点在于其合成样本的多样性和真实性。数据集不仅涵盖了广泛的土耳其语词汇和短语，还通过多样化的字体、大小和方向设置，以及添加真实效果如阴影和模糊，增强了样本的复杂性和挑战性。此外，数据集的设计旨在提高训练数据的可用性，特别是对于专注于土耳其语言的模型。这种设计使得STS-TR成为场景文本识别领域中一个极具价值的资源。

使用方法

使用STS-TR数据集进行模型训练和评估时，首先需克隆GitHub仓库并安装相关依赖。随后，调整数据源文件夹结构，确保包含背景、字体、文本和纹理等必要组件。最后，运行main.py脚本即可开始训练和评估过程。数据集的多样性和真实性使其适用于各种场景文本识别模型的训练，特别是那些需要处理土耳其语言的模型。通过合理利用STS-TR数据集，研究者可以显著提升模型的性能和泛化能力。

背景与挑战

背景概述

STS-TR数据集，全称为Synthetic Turkish Scene Text Recognition Dataset，是由Serdar Yıldız创建的综合性合成数据集。该数据集旨在补充现有的真实世界土耳其场景文本识别（TS-TR）数据集，包含超过1200万条合成样本，模拟了各种文本场景。STS-TR数据集涵盖了多种土耳其词汇和短语，以多样化的字体、大小和方向呈现，并在通用背景场景中添加了阴影、模糊和环境扭曲等现实效果。这一数据集的创建极大地增强了针对土耳其语言的模型训练数据的可获得性，对场景文本识别领域具有重要影响。

当前挑战

STS-TR数据集在构建过程中面临多项挑战。首先，合成文本的真实性要求高，需确保合成文本在视觉上与真实场景中的文本无异，这对图像生成技术提出了高要求。其次，数据集的多样性也是一个重要挑战，需涵盖多种字体、大小和方向，以确保模型能够应对各种实际应用场景。此外，数据集的规模庞大，管理和维护如此大规模的数据集需要高效的存储和处理技术。最后，合成数据与真实数据的融合也是一个挑战，需确保合成数据能够有效提升模型的泛化能力，而不引入偏差。

常用场景

经典使用场景

在场景文本识别领域，STS-TR数据集的经典使用场景主要集中在训练和评估针对土耳其语的文本识别模型。该数据集通过合成的方式，提供了超过1200万条样本，涵盖了多种字体、大小和方向的土耳其语单词和短语，并模拟了真实环境中的阴影、模糊和环境扭曲等效果。这些丰富的样本使得模型能够在多样化的场景中进行有效的训练，从而提高其在实际应用中的识别准确率。

衍生相关工作

基于STS-TR数据集，研究者们开发了多种针对土耳其语的文本识别模型，如MViT-TR模型，该模型结合了视觉变换器和位置注意力机制，显著提升了识别性能。此外，STS-TR还激发了关于合成数据生成和应用的研究，推动了合成数据在机器学习中的应用和发展。这些相关工作不仅丰富了土耳其语文本识别的研究内容，也为其他语言的文本识别研究提供了借鉴和参考。

数据集最近研究