MTHv2

github2024-05-09 更新2024-05-31 收录

下载链接：

https://github.com/HCIILAB/TKH_MTH2200_Datasets_Release

下载链接

链接失效反馈

官方服务：

资源简介：

本项目共享的数据集是高丽藏汉文（TKH）数据集和多版本高丽藏汉文（MTH）数据集。为了促进对中国历史文献的研究，我们扩展了原始数据集的规模，增加了布局、字符和文本行的标注。从互联网上添加了更多具有挑战性的文档图像到MTH数据集，其图像数量现已达到2200张，TKH和MTH的合并数据集被命名为MTHv2。

The dataset shared in this project comprises the Tripitaka Koreana in Chinese (TKH) dataset and the Multi-version Tripitaka Koreana in Chinese (MTH) dataset. To facilitate research on Chinese historical documents, we have expanded the scale of the original datasets by adding annotations for layout, characters, and text lines. More challenging document images from the internet have been added to the MTH dataset, increasing the number of images to 2,200. The combined dataset of TKH and MTH is now named MTHv2.

创建时间：

2020-06-17

原始信息汇总

数据集概述

数据集名称

Tripitaka Koreana in Han (TKH) Dataset
Multiple Tripitaka in Han (MTH) Dataset
MTHv2 (TKH和MTH的合并数据集)

数据集内容

原始数据集扩展，增加了布局、字符和文本行的标注。
新增了来自互联网的更具挑战性的文档图像，总数达到2200张。

数据集结构

包含三种类型的标注：
- 行级标注：文本行位置及其转录，按阅读顺序保存。
- 字符级标注：包括类别和边界框坐标。
- 边界线：由线段的起始和结束点表示。

数据集划分

随机分为训练集和测试集，比例为3:1。

数据集下载

Google Drive链接：Google Drive
Baidu Drive链接：Baidu Drive 提取码: eweb

引用信息

@article{ title={Joint Layout Analysis, Character Detection and Recognition for Historical Document Digitization}, author={Weihong Ma, Hesuo Zhang, Lianwen Jin, Sihang Wu, Jiapeng Wang, Yongpan Wang}, journal={ICFHR 2020}, year={2020} }

搜集汇总

数据集介绍

构建方式

MTHv2数据集的构建基于原有的TKH和MTH数据集，通过扩展其规模并引入新的文档图像，从而形成了一个包含2200张图像的综合数据集。在构建过程中，研究团队不仅增加了来自互联网的更具挑战性的文档图像，还对这些图像进行了详细的标注，包括文本行位置、字符类别及其边界框坐标，以及边界线的起始和结束点。此外，数据集的划分遵循3:1的比例，随机分配为训练集和测试集，以确保其在实际应用中的有效性和可靠性。

特点

MTHv2数据集的显著特点在于其丰富的标注信息和多样化的文档图像。该数据集提供了三种类型的标注：文本行级别的标注，包括文本行的位置及其转录；字符级别的标注，涵盖了字符的类别和边界框坐标；以及边界线的标注，通过线段的起始和结束点来表示。这些详细的标注使得MTHv2数据集在处理复杂的历史文档时具有极高的实用价值，尤其适用于中文历史文献的研究和数字化工作。

使用方法

MTHv2数据集主要面向学术研究，特别是中文历史文献的数字化和分析。使用者可以通过提供的下载链接获取数据集，并根据其提供的标注信息进行模型训练和测试。数据集的训练集和测试集已经按照3:1的比例随机划分，用户可以直接使用这些预先划分好的数据进行实验。此外，数据集的详细标注信息为研究者提供了丰富的数据支持，有助于开发和验证新的算法和技术，以提高历史文档的数字化和识别精度。

背景与挑战

背景概述

MTHv2数据集，作为Tripitaka Koreana in Han (TKH)数据集与Multiple Tripitaka in Han (MTH)数据集的扩展，旨在促进对中国历史文献的研究。该数据集由Weihong Ma、Hesuo Zhang等研究人员于2020年创建，主要研究机构包括华南理工大学（SCUT）和北京龙泉寺。MTHv2不仅继承了原始数据集的布局、字符和文本行注释，还通过添加来自互联网的更具挑战性的文档图像，将图像数量扩展至2200张，从而形成了一个更为全面的数据集。这一扩展不仅丰富了数据集的内容，也提升了其在历史文献数字化领域的应用价值，尤其是在联合布局分析、字符检测与识别等方面。

当前挑战

MTHv2数据集在构建过程中面临多重挑战。首先，从互联网获取的文档图像质量参差不齐，增加了图像预处理的复杂性。其次，字符级别的注释需要高精度的分类和定位，这对注释工具和方法提出了高要求。此外，数据集的扩展过程中，如何保持注释的一致性和准确性也是一个重要挑战。在应用层面，MTHv2数据集的挑战主要体现在如何有效利用其丰富的注释信息，提升历史文献的数字化处理效率和准确性。

常用场景

经典使用场景

在古籍数字化领域，MTHv2数据集以其丰富的标注信息和多样化的文档图像，成为研究者进行文本行定位、字符识别和布局分析的经典工具。通过提供详细的文本行位置及其转录、字符类别与边界框坐标，以及线段的起止点信息，该数据集极大地促进了历史文献的自动化解析与数字化处理。

解决学术问题

MTHv2数据集通过提供高精度的文本行和字符级标注，解决了古籍数字化中常见的文本定位与识别难题。其丰富的标注信息不仅提升了模型的训练效果，还为研究者提供了宝贵的数据资源，推动了相关领域的技术进步。此外，该数据集的引入，为历史文献的数字化保护与研究提供了新的可能性，具有重要的学术价值。

衍生相关工作

基于MTHv2数据集，研究者们开展了一系列相关工作，包括但不限于文本行检测与识别、字符分类与定位、以及文档布局分析等。这些研究不仅提升了古籍数字化的技术水平，还为后续的学术研究提供了坚实的基础。例如，一些研究通过结合深度学习技术，进一步提高了文本识别的准确率，推动了古籍数字化领域的技术革新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集