TKH_MTH_Datasets
收藏github2024-01-05 更新2024-05-31 收录
下载链接:
https://github.com/HCIILAB/SCUT_TKH_MTH_Datasets_Release
下载链接
链接失效反馈官方服务:
资源简介:
TKH_MTH_Datasets包含扫描的《高丽藏》汉文版(TKH)和多种《高丽藏》汉文版(MTH)图像,用于历史文献中汉字检测和识别的研究。数据集包含带有真实标签的扫描《高丽藏》图像,包括每个框中的真实字符边界框和真实字符。TKH数据集包含1000张图像,约320,000个字符实例和23,000行,适合作为历史文献中字符检测和识别研究的基准数据集。MTH数据集包含约500张更复杂、更具代表性的图像,来自中国八种不同版本的《高丽藏》,提供了更复杂的情况,如同一行中字符大小不同,使该数据集更具挑战性。
The TKH_MTH_Datasets encompass scanned images of the Chinese version of the Tripitaka Koreana (TKH) and multiple versions of the Chinese Tripitaka Koreana (MTH), designed for research on Chinese character detection and recognition in historical documents. The dataset includes scanned images of the Tripitaka Koreana with authentic labels, featuring true character bounding boxes and actual characters within each frame. The TKH dataset comprises 1,000 images, approximately 320,000 character instances, and 23,000 lines, making it an ideal benchmark for studies on character detection and recognition in historical texts. The MTH dataset contains about 500 more complex and representative images from eight different Chinese editions of the Tripitaka Koreana, presenting more challenging scenarios such as varying character sizes within the same line, thereby enhancing the dataset's complexity.
创建时间:
2018-05-16
原始信息汇总
数据集概述
数据集名称
- TKH_MTH_Datasets_Release
数据集内容
- TKH数据集:包含1,000张图像,约320,000个字符实例和23,000行。图像布局相对规则,字符大多统一,适合作为历史文档中字符检测和识别研究的基准数据集。
- MTH数据集:包含约500张图像,来自中国八种不同版本的佛经,图像更复杂,更具挑战性,适合测试模型的鲁棒性和泛化能力。
数据集特点
- TKH数据集:图像包含噪声如斑点、撕裂、墨水褪色和透明背面,但无需预处理即可阅读。使用垂直投影方法和光束搜索算法进行字符分割和边界框调整。
- MTH数据集:图像包含更多复杂情况,如包含图画、多文本区域和同一行中不同大小的字符。使用TKH数据集训练的检测器生成初始边界框。
数据集用途
- 仅供非商业研究目的使用。
数据集下载
实验结果
- 在TKH数据集上测试了多种检测方法,包括R-FCN、Faster R-CNN、SSD、YOLO、TextBoxes、DMP-Nets和FEN等,结果显示在Table 4中。
- 在MTH数据集上进行了模型测试,以评估模型的鲁棒性和泛化能力,结果显示在Table 5中。
引用信息
-
当使用此数据集时,请引用以下论文:
@article{yang2018SCUT, title = {Dense and Tight Detection of Chinese Characters in Historical Documents: Datasets and a Recognition Guided Detector}, author = {Yang, Hailin and Jin, Lianwen and Huang, Weiguo and Yang, Zhaoyang and Lai, Songxuan and Sun, Jifeng}, jurnal = {IEEE Access}, year = {2018}
联系方式
- 如有任何问题,请联系作者:
- 邮箱:eehlyang@mail.scut.edu.cn
- 邮箱:eelwjin@scut.edu.cn
搜集汇总
数据集介绍

构建方式
TKH_MTH_Datasets的构建基于对《高丽大藏经》汉文版及其他多种汉文大藏经的扫描图像处理。研究人员从互联网获取了这些图像,并采用垂直投影法将图像分割为文本行,随后通过束搜索算法进行过分割,初步获取字符的矩形边界框。为确保边界框的准确性,研究人员对这些框进行了调整,并为每个框内的字符标注了真实标签。TKH数据集包含1000张图像,约32万个字符实例和2.3万行文本;MTH数据集则包含500张更为复杂的图像,涵盖了八种不同版本的大藏经,其复杂性为字符检测和识别研究提供了更具挑战性的场景。
特点
TKH_MTH_Datasets的特点在于其专注于历史文献中的汉字检测与识别研究。TKH数据集图像布局相对规整,字符大小较为统一,适合作为历史文档字符检测与识别研究的基准数据集。MTH数据集则更具多样性,包含多种复杂场景,如插画、多文本区域以及同一行中字符大小不一的情况,这些特点使其成为测试模型鲁棒性和泛化能力的理想选择。数据集中的图像虽存在斑点、撕裂、墨水褪色等噪声,但仍可直接阅读,无需预处理。
使用方法
TKH_MTH_Datasets的使用方法主要包括下载数据集并通过深度学习模型进行字符检测与识别实验。研究人员可基于TKH数据集训练模型,并利用MTH数据集测试模型的鲁棒性和泛化能力。数据集提供了真实标签,包括字符边界框和框内字符的真实值,便于模型训练与评估。实验结果表明,使用文本行作为输入的检测方法在TKH数据集上表现优异,而MTH数据集则更适合验证模型在复杂场景下的性能。数据集仅限非商业研究用途,使用时需引用相关论文。
背景与挑战
背景概述
TKH_MTH_Datasets由华南理工大学深度学习与视觉计算实验室于2018年发布,旨在推动历史文献中的汉字检测与识别研究。该数据集包含《高丽大藏经》汉文版(TKH)和多种汉文大藏经(MTH)的扫描图像及其标注信息。TKH数据集包含1000张图像,约32万个字符实例和2.3万行文本,其布局规整、字符均匀,适合作为历史文献字符检测与识别研究的基准数据集。MTH数据集则包含来自八种不同版本大藏经的500张图像,其复杂性更高,涵盖了多种挑战性场景,如插图、多文本区域及字符大小不一等。该数据集的发布为历史文献图像处理领域提供了重要的研究资源,推动了相关技术的发展。
当前挑战
TKH_MTH_Datasets在解决历史文献字符检测与识别问题时面临多重挑战。首先,历史文献图像常存在噪声干扰,如污渍、撕裂、墨水褪色及背面透印等问题,增加了字符检测的难度。其次,MTH数据集中的图像复杂性更高,例如包含插图、多文本区域以及同一行字符大小不一的情况,这些因素使得字符边界框的生成和识别更加困难。在数据集构建过程中,研究团队采用了垂直投影法和光束搜索算法对图像进行分割,并手动调整字符边界框以确保标注的准确性。此外,由于MTH数据集的复杂性,研究团队还需借助TKH数据集训练的检测器生成初始边界框,进一步增加了数据标注的复杂性和工作量。这些挑战不仅考验了数据集的构建技术,也为相关算法的鲁棒性和泛化能力提出了更高要求。
常用场景
经典使用场景
TKH_MTH_Datasets在历史文献中的汉字检测与识别研究中扮演了重要角色。该数据集通过提供高精度的字符边界框和真实字符标注,为研究人员提供了一个标准化的测试平台。特别是在处理具有复杂背景和噪声的扫描图像时,TKH_MTH_Datasets能够有效支持算法的开发和验证。
解决学术问题
TKH_MTH_Datasets解决了历史文献数字化过程中汉字检测与识别的关键问题。通过提供大量标注数据,该数据集帮助研究人员克服了字符模糊、背景噪声和布局不规则等挑战,推动了相关算法的进步。其意义在于为历史文献的自动化处理提供了可靠的数据基础,促进了文化遗产的数字化保护与研究。
衍生相关工作
TKH_MTH_Datasets的发布催生了一系列相关研究工作,特别是在汉字检测与识别领域。基于该数据集,研究人员提出了多种改进算法,如基于深度学习的字符检测模型和文本行分割方法。这些工作不仅提升了算法的性能,还为其他历史文献的数字化处理提供了参考和借鉴。
以上内容由遇见数据集搜集并总结生成



