藏文手写体文字识别训练测试数据集
收藏国家基础学科公共科学数据中心2024-03-05 收录
下载链接:
https://www.nbsdc.cn/general/dataDetail?id=64f08269bb16e06dfdc78c6b&type=1
下载链接
链接失效反馈官方服务:
资源简介:
通过激光扫描仪扫描或收集已扫描拍照的手写本藏文古籍文献原始图片,采用开源的标注工具,在原始图片上进行文本块位置标注和对应位置文本内容的标注。共扫描、收集并标注藏文古籍文献手写本标注数据11000张。每个数据样本包含原始图片.jpg文件、图片对应的文本数据.txt文件、文本块位置标注信息.xml文件,数据完整。
Raw images of handwritten Tibetan ancient manuscripts were either scanned using laser scanners or collected from pre-scanned photographs. Annotations of text block positions and their corresponding text contents were conducted on these raw images via open-source annotation tools. In total, 11,000 annotated samples of handwritten Tibetan ancient manuscripts have been scanned, collected and labeled. Each data sample consists of three complete files: the raw image in .jpg format, the corresponding text data file in .txt format, and the annotation information file for text block positions in .xml format.
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含11000张藏文古籍文献手写本的扫描或拍照原始图片,每张图片配有文本数据文件和文本块位置标注信息文件,总数据量为9.05GB。数据集通过开源标注工具进行标注,适用于藏文手写体文字识别的研究和测试。
以上内容由遇见数据集搜集并总结生成



