Tripitaka Koreana in Han (TKH) Dataset, Multiple Tripitaka in Han (MTH) Dataset

github2018-12-14 更新2024-05-31 收录

下载链接：

https://github.com/scutyuanzhi/TKH_MTH_Datasets_Release

下载链接

链接失效反馈

官方服务：

资源简介：

这些数据集包含扫描的佛教经典图像，附有真实标签，包括每个框中的真实字符边界框和真实字符。TKH数据集包含1000张图像，约320,000个字符实例和23,000行，适合作为历史文档中字符检测和识别研究的基准数据集。MTH数据集包含约500张更复杂、更具代表性的图像，来自中国八种不同的佛教经典版本，更具挑战性，支持历史文档图像的研究。

These datasets comprise scanned images of Buddhist scriptures, accompanied by ground truth labels that include the true character bounding boxes and the actual characters within each box. The TKH dataset contains 1,000 images, approximately 320,000 character instances, and 23,000 lines, making it a suitable benchmark for research on character detection and recognition in historical documents. The MTH dataset includes around 500 more complex and representative images derived from eight different versions of Chinese Buddhist scriptures, presenting greater challenges and supporting research on historical document imagery.

创建时间：

2018-12-14

原始信息汇总

数据集概述

数据集名称

TKH数据集：Tripitaka Koreana in Han (TKH) Dataset
MTH数据集：Multiple Tripitaka in Han (MTH) Dataset

数据集来源

由华南理工大学深度学习和视觉计算实验室发布。

数据集用途

用于历史文献中汉字检测与识别的研究。

数据集内容

TKH数据集：包含1,000张图像，约320,000个字符实例和23,000行。图像布局相对规则，字符大多统一。
MTH数据集：包含约500张图像，来自中国八个不同的佛经版本，情况更为复杂，包含绘图和多个文本区域，同一行中字符大小不一。

数据集特点

包含扫描的佛经图像及其对应的标注，包括字符边界框和每个框中的字符。
使用垂直投影方法和光束搜索算法进行字符分割和边界框调整。

数据集下载

TKH数据集：下载链接，密码：xt1g，大小：1.67GB。
MTH数据集：下载链接，密码：iaha，大小：2.48GB。

使用限制

仅限于非商业研究目的使用。

实验结果

在TKH数据集上测试了多种检测方法，包括R-FCN、Faster R-CNN、SSD、YOLO、TextBoxes、DMP-Nets和FEN等，结果显示在Table 4中。
在MTH数据集上测试了模型的鲁棒性和泛化能力，结果显示在Table 5中。

联系方式

如有问题，请联系作者：eehlyang@mail.scut.edu.cn 和 eelwjin@scut.edu.cn。

搜集汇总

数据集介绍

构建方式

本研究团队以韩国藏经汉文版图像为基础，构建了Tripitaka Koreana in Han (TKH) 数据集与Multiple Tripitaka in Han (MTH) 数据集，旨在服务于历史文献中的汉字检测与识别研究。团队采用垂直投影法对图像进行文本行分割，并通过束搜索算法进一步分割以获取字符的初始矩形框，随后人工调整以确保框选准确性，并标注框内真实字符。

特点

TKH数据集包含1000幅图像，约320,000个字符实例和23,000行文本，其布局规律、字符统一，适合作为历史文献字符检测与识别研究的基准数据集。MTH数据集则包含来自中国八个不同版本的藏经图像，情形更为复杂，具有更高的挑战性，尤其适用于测试模型的鲁棒性和泛化能力。

使用方法

用户可通过提供的数据集下载链接获取数据，并遵循使用说明进行相关研究。数据集仅限于非商业性研究目的。使用时，需注意数据集的构成特点，合理设计实验方案，以充分利用数据集的价值。

背景与挑战

背景概述

Tripitaka Koreana in Han (TKH) Dataset及Multiple Tripitaka in Han (MTH) Dataset，由华南理工大学深度学习与视觉计算实验室推出，旨在为历史文献中的汉字检测与识别研究提供助力。TKH数据集包含1000幅高保真的《高丽藏》扫描图像，标注有大约320,000个字符实例和23,000行文本。MTH数据集则包含了来自中国八个不同版本的《高丽藏》扫描图像，展现出更为复杂多变的文本情况，这两个数据集自发布以来，便成为该领域研究的重要资源。

当前挑战

该数据集的构建与使用面临诸多挑战：首先，历史文献图像往往存在污点、撕裂、墨迹褪色等问题，给字符检测与识别带来困难；其次，MTH数据集中图像的布局复杂，字体大小不一，导致字符识别的难度加大。此外，如何在保持高精确度的同时，提高检测算法的鲁棒性和泛化能力，也是当前研究的一大挑战。

常用场景

经典使用场景

在古籍文献研究领域，Tripitaka Koreana in Han (TKH) Dataset与Multiple Tripitaka in Han (MTH) Dataset被广泛应用于汉字检测与识别的研究。这两个数据集提供了丰富的文本行和字符bounding box标注，为字符分割与识别算法的训练与评估提供了基准。

衍生相关工作

基于这两个数据集，研究者们开发了多种高效的字符检测与识别算法，并在多个国际竞赛中取得了优异的成绩，推动了古籍文献处理技术的发展和学术研究的深入。

数据集最近研究