RusTitW
收藏arXiv2023-03-29 更新2024-07-24 收录
下载链接:
https://github.com/markovivl/SynthText
下载链接
链接失效反馈官方服务:
资源简介:
RusTitW是由AIRI创建的大规模俄语文本识别数据集,包含13795张图像,用于解决野外文本识别的挑战。数据集内容丰富,包括多种文本类型和场景,通过人工标注确保质量。创建过程中,使用了先进的图像处理技术,如深度估计和语义分割,以增强数据集的实用性和多样性。该数据集主要应用于自动化文本识别技术,旨在提高模型在复杂环境下的识别能力,适用于多种实际应用,如水表读数、图像检索等。
RusTitW is a large-scale Russian text recognition dataset created by AIRI. It consists of 13,795 images and is designed to address the challenges of text recognition in wild scenes. The dataset features abundant content covering diverse text types and scenarios, with its quality ensured by manual annotation. During its development, advanced image processing technologies such as depth estimation and semantic segmentation were adopted to enhance its practicality and diversity. This dataset is mainly applied to automated text recognition techniques, with the goal of improving the recognition performance of models in complex environments, and is suitable for multiple real-world applications including water meter reading and image retrieval.
提供机构:
AIRI
创建时间:
2023-03-29
原始信息汇总
SynthText 数据集概述
数据集简介
SynthText 数据集包含约800,000张合成场景文本图像,这些图像由代码生成,用于文本定位研究。数据集的生成方法在论文 "Synthetic Data for Text Localisation in Natural Images", Ankush Gupta, Andrea Vedaldi, Andrew Zisserman, CVPR 2016 中描述。
数据集样本
数据集包含合成场景文本图像样本,具体样本图像可参考 这里。
数据生成
数据生成的主要依赖库包括:
pygame==2.0.0, opencv (cv2), PIL (Image), numpy, matplotlib, h5py, scipy
生成样本的命令如下:
python gen.py --viz [--datadir <path-to-dowloaded-renderer-data>]
其中,--datadir 指向下载的 renderer_data 目录,该目录包含以下内容:
- sample.h5: 包含5张图像及其深度和分割信息的示例h5文件。
- fonts: 三个示例字体文件。
- newsgroup: 文本源文件,可替换为任意文本文件。
- models/colors_new.cp: 前景/背景文本颜色模型。
- models: 其他cPickle文件,如字符频率模型和字体大小转换模型。
生成的图像样本将存储在 results/SynthText.h5 文件中,可通过 python visualize_results.py 命令进行可视化。
预处理背景图像
数据集中包含8,000张预处理的背景图像及其分割和深度掩码,这些文件位于 bg_data 目录下,包括:
imnames.cp: 不包含背景文本的图像名称。bg_img.tar.gz: 背景图像文件。depth.h5: 深度图。seg.h5: 分割图。
这些文件可通过 BitTorrent 或 HTTP 下载,具体下载链接和文件信息可参考 这里。
非拉丁文文本生成
数据集支持生成非拉丁文(如中文、阿拉伯文、日文等)文本图像,具体修改方法和代码可参考相关链接。



