MTHv2

github2024-05-09 更新2024-05-31 收录

下载链接：

https://github.com/HCIILAB/MTHv2_Datasets_Release

下载链接

链接失效反馈

官方服务：

资源简介：

本项目共享的数据集包括韩文大藏经（TKH）数据集和多版本大藏经（MTH）数据集。为了促进中国历史文献的研究，我们通过添加布局、字符和文本行注释来扩展原始数据集的规模。更多来自互联网的挑战性文档图像被添加到MTH数据集中，其图像数量现在为2200，TKH和MTH的组合数据集被命名为MTHv2。

The dataset shared in this project includes the Tripitaka Koreana in Hanja (TKH) dataset and the Multi-version Tripitaka Hanja (MTH) dataset. To facilitate research on Chinese historical documents, we have expanded the original dataset by adding annotations for layout, characters, and text lines. More challenging document images from the internet have been added to the MTH dataset, which now contains 2200 images. The combined dataset of TKH and MTH is named MTHv2.

创建时间：

2020-06-17

原始信息汇总

MTHv2 数据集概述

数据集内容

数据集名称：MTHv2，包括Tripitaka Koreana in Han (TKH) Dataset和Multiple Tripitaka in Han (MTH) Dataset的扩展版本。
数据集扩展：新增了来自互联网的更具挑战性的文档图像，总数达到2200张。

数据集特点

三类标注：
- 行级标注：包括文本行位置及其转录，按阅读顺序保存。
- 字符级标注：包括类别和边界框坐标。
- 边界线标注：由线段的起始和结束点表示。

数据集划分

训练集与测试集：随机按3:1的比例划分。

数据集下载

下载链接：
- Google Drive
- Baidu Drive 提取码: eweb

引用信息

@article{ title={Joint Layout Analysis, Character Detection and Recognition for Historical Document Digitization}, author={Weihong Ma, Hesuo Zhang, Lianwen Jin, Sihang Wu, Jiapeng Wang, Yongpan Wang}, journal={ICFHR 2020}, year={2020} }

搜集汇总

数据集介绍

构建方式

MTHv2数据集的构建基于原有的TKH和MTH数据集，通过扩展其规模并引入新的文档图像，进一步丰富了数据内容。为支持中文历史文献的研究，该数据集不仅包含了原始的文档图像，还增加了布局、字符和文本行的详细标注。具体而言，新增的图像来源于互联网，经过筛选后纳入数据集，使得MTHv2的总图像数量达到2200张。此外，数据集提供了三种类型的标注：文本行级别的标注，包括文本行的位置和转录；字符级别的标注，涵盖类别和边界框坐标；以及边界线的标注，通过线段的起点和终点表示。

特点

MTHv2数据集的显著特点在于其丰富的标注信息和多样化的文档图像。首先，数据集提供了三种不同层次的标注，涵盖了从文本行到字符的详细信息，为研究者提供了多维度的分析可能性。其次，数据集的图像来源广泛，包含了更具挑战性的文档图像，这使得该数据集在处理复杂历史文献时具有更高的实用价值。此外，数据集的划分比例合理，训练集与测试集的比例为3:1，确保了模型训练和评估的平衡性。

使用方法

MTHv2数据集主要面向学术研究，尤其是中文历史文献的数字化和分析。研究者可以通过下载数据集并利用其提供的标注信息，进行文本行检测、字符识别以及布局分析等相关研究。数据集的标注格式清晰，便于直接用于机器学习模型的训练和测试。此外，数据集的训练集和测试集已预先划分，研究者可以直接使用这些划分进行实验。对于任何使用该数据集的研究，建议引用相关的文献以确保学术诚信。

背景与挑战

背景概述

MTHv2数据集是由Tripitaka Koreana in Han (TKH)数据集和Multiple Tripitaka in Han (MTH)数据集扩展而来，旨在促进对中国历史文献的研究。该数据集由Weihong Ma等人于2020年创建，主要研究人员来自华南理工大学（SCUT）和北京龙泉寺。MTHv2数据集通过添加布局、字符和文本行注释，扩展了原始数据集的规模，并引入了更具挑战性的文档图像，总数达到2200张。该数据集的发布为历史文档的数字化、布局分析、字符检测和识别等研究提供了宝贵的资源，对相关领域的研究具有重要影响。

当前挑战

MTHv2数据集在构建过程中面临多项挑战。首先，历史文档的数字化和注释工作复杂且耗时，尤其是对文本行和字符级别的精确标注。其次，数据集中包含的文档图像来自互联网，质量参差不齐，增加了图像处理的难度。此外，如何确保注释的准确性和一致性，以及如何有效地分割训练集和测试集，也是该数据集构建过程中需要解决的关键问题。这些挑战不仅影响了数据集的质量，也对后续的研究工作提出了更高的要求。

常用场景

经典使用场景

MTHv2数据集在古籍数字化研究中展现了其经典应用场景。通过提供详细的行级、字级和边界线标注，该数据集为研究者提供了丰富的信息，使其能够深入探索古籍文档的布局分析、字符检测与识别等关键任务。这些标注不仅有助于构建高效的模型，还能确保古籍文本的准确转录与理解，从而推动古籍数字化进程。

解决学术问题

MTHv2数据集解决了古籍数字化领域中的多个学术难题。首先，它通过提供精确的行级和字级标注，解决了古籍文本自动识别中的布局分析问题。其次，该数据集的边界线标注为复杂文档图像的处理提供了新的研究方向，有助于提高古籍文本的识别准确率。这些解决方案不仅提升了古籍数字化的技术水平，还为相关领域的研究提供了宝贵的数据支持。

衍生相关工作

MTHv2数据集的发布催生了一系列相关研究工作。例如，基于该数据集的布局分析与字符识别算法在多个国际会议上得到了广泛讨论与应用。此外，该数据集还激发了学者们对古籍文本多模态分析的兴趣，推动了跨学科研究的进展。这些衍生工作不仅丰富了古籍数字化的研究内容，还为相关领域的技术发展提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集