TKH Dataset, MTH Dataset

github2024-01-05 更新2024-05-31 收录

下载链接：

https://github.com/HCIILAB/TKH_MTH_Datasets_Release

下载链接

链接失效反馈

官方服务：

资源简介：

TKH数据集包含1,000张图像，约320,000个字符实例和23,000行，适用于历史文档中字符检测和识别的研究。MTH数据集包含约500张更复杂、更具代表性的图像，支持历史文档图像研究的进一步发展。

The TKH dataset comprises 1,000 images, approximately 320,000 character instances, and 23,000 lines, suitable for research on character detection and recognition in historical documents. The MTH dataset includes about 500 more complex and representative images, supporting further advancements in the study of historical document images.

创建时间：

2018-05-16

原始信息汇总

数据集概述

数据集名称

TKH数据集：Tripitaka Koreana in Han (TKH) Dataset
MTH数据集：Multiple Tripitaka in Han (MTH) Dataset

数据集来源

由华南理工大学Deep Leaning and Visual Computing Lab发布。

数据集用途

用于历史文献中汉字检测与识别的研究。

数据集内容

TKH数据集：包含1,000张图像，约320,000个字符实例和23,000行。图像布局相对规则，字符大多统一。
MTH数据集：包含约500张图像，来自中国八个不同的Tripitaka版本，图像更复杂，更具挑战性。

数据集特点

包含扫描的Tripitaka图像及其对应的地面实况标签，包括字符边界框和每个框内的地面实况字符。
TKH数据集适合作为字符检测和识别研究的基准数据集。
MTH数据集由于其复杂性和多样性，适合测试模型的鲁棒性和泛化能力。

数据集下载

TKH数据集：下载链接 (密码: qwq3)
MTH数据集：下载链接 (密码: 3hjh)

使用限制

仅限于非商业研究目的使用。

实验结果

在TKH数据集上测试了多种检测方法，包括R-FCN、Faster R-CNN、SSD、YOLO、TextBoxes、DMP-Nets和FEN等，并与提出的RGD方法进行了比较。
在MTH数据集上进行了模型测试，以评估各方法的鲁棒性和泛化能力。

联系方式

如有问题，请联系作者：eehlyang@mail.scut.edu.cn 和 eelwjin@scut.edu.cn。

搜集汇总

数据集介绍

构建方式

TKH和MTH数据集的构建过程体现了对历史文献中汉字检测与识别研究的深入探索。TKH数据集基于韩国大藏经的汉文版本，通过互联网获取原始扫描图像，并采用垂直投影法将图像分割为文本行，随后通过光束搜索算法进行过分割，生成字符的初始矩形边界框，并进一步调整以确保字符的精确标注。MTH数据集则更为复杂，包含来自中国八个不同版本的大藏经扫描图像，其初始边界框的生成依赖于在TKH数据集上训练的检测器，以应对图像中更为多样化的挑战。

特点

TKH数据集包含1000张图像，涵盖约32万个字符实例和2.3万行文本，其图像布局相对规整，字符大小较为统一，适合作为历史文献字符检测与识别研究的基准数据集。MTH数据集则包含约500张图像，其复杂性显著高于TKH数据集，图像中可能包含插图、多个文本区域，甚至同一行中的字符大小不一，这些特点使得MTH数据集在测试模型的鲁棒性和泛化能力方面具有独特价值。

使用方法

TKH和MTH数据集主要用于非商业研究目的，用户可通过提供的链接下载数据集。在使用过程中，研究者可以将这些数据集应用于汉字检测与识别算法的开发与测试，特别是针对历史文献图像的处理。实验结果表明，这些数据集在评估现有检测方法的性能方面具有显著优势，尤其是MTH数据集能够有效测试模型在复杂场景下的表现。使用这些数据集时，建议引用相关论文以支持研究的学术性。

背景与挑战

背景概述

TKH数据集与MTH数据集由华南理工大学深度学习与视觉计算实验室发布，专注于历史文献中的汉字检测与识别研究。TKH数据集基于韩文大藏经的汉文版本，其历史可追溯至公元11世纪，具有重要的文化与宗教价值。该数据集包含1000张扫描图像，涵盖约32万个字符实例和2.3万行文本，为历史文献字符检测与识别提供了基准数据。MTH数据集则更为复杂，包含来自八种不同版本大藏经的扫描图像，其多样性与复杂性为模型鲁棒性与泛化能力的研究提供了独特价值。这些数据集的发布为历史文献的数字化与智能化处理提供了重要支持。

当前挑战

TKH与MTH数据集在构建与应用中面临多重挑战。首先，历史文献图像常存在斑点、撕裂、墨水褪色及背面透印等噪声，增加了字符检测与识别的难度。其次，MTH数据集中的图像布局更为复杂，部分图像包含插图或多文本区域，且同一行字符大小不一，导致小字符模糊且紧密排列，难以通过常规方法生成初始边界框。此外，数据集的构建依赖于大量人工标注与算法优化，需在准确性与效率之间取得平衡。这些挑战不仅考验了数据集的构建技术，也为相关算法的研发提出了更高要求。

常用场景

经典使用场景

TKH和MTH数据集在历史文献中的汉字检测与识别研究中扮演着重要角色。这些数据集通过提供带有真实标签的扫描图像，为研究者提供了一个基准平台，用于开发和测试字符检测与识别算法。特别是在处理具有复杂布局和多样字符形态的历史文献时，这些数据集展现了其独特的价值。

实际应用

在实际应用中，TKH和MTH数据集被广泛用于佛教文献的数字化和保存工作。通过利用这些数据集训练的高效算法，研究者能够更快速、更准确地转录和保存珍贵的佛教经典，为文化遗产的传承提供了技术支持。

衍生相关工作

基于TKH和MTH数据集，研究者开发了多种先进的字符检测与识别算法，如RGD（Recognition Guided Detector）。这些算法不仅在历史文献处理领域取得了显著成果，还为其他领域的文本识别任务提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集