HJDataset

github2024-05-12 更新2024-05-31 收录

下载链接：

https://github.com/dell-research-harvard/HJDataset

下载链接

链接失效反馈

官方服务：

资源简介：

HJDataset是一个包含复杂布局的历史日本文档的大型数据集，包含超过250,000个七种类型的布局元素标注。除了内容区域的边界框和掩码外，还包括布局元素的层次结构和阅读顺序，以便进行高级分析。

HJDataset is a large-scale dataset of historical Japanese documents with complex layouts. It contains over 250,000 annotated layout elements belonging to seven categories. In addition to providing bounding boxes and segmentation masks for content regions, the dataset also includes the hierarchical structure and reading order of layout elements to support advanced analytical research.

创建时间：

2020-04-14

原始信息汇总

HJDataset

数据集概述

HJDataset是一个包含复杂布局的历史日本文档的大型数据集。该数据集包含超过250,000个七种类型的布局元素注释。除了内容区域的边界框和掩码外，还包含布局元素的层次结构和阅读顺序，以进行高级分析。

数据集下载

所有注释可通过以下链接获取：annotations.zip。由于版权问题，数据集中的图像无法直接发布。请填写此表单发送下载请求，我们将发送链接。

文件组织

下载后，建议按以下方式组织注释和图像：

data/ ├── train/ ├── test/ ├── val/ └── annotations/ ├── instances_train.json └── ....

环境配置

可以使用提供的conda环境文件配置环境：

conda install -f environment.yml

入门代码

提供了一些入门代码：

1-Dataloader and visualization.ipynb 展示了如何使用数据加载器类加载和可视化HJDataset中的布局元素。
2-Training Using Detectron2.ipynb 展示了如何使用Detectron2在数据集上训练分割模型。

引用

如果数据集对您的研究有帮助，请引用我们的工作：

@article{shen2020large, title={A Large Dataset of Historical Japanese Documents with Complex Layouts}, author={Shen, Zejiang and Zhang, Kaixuan and Dell, Melissa}, journal={arXiv preprint arXiv:2004.08686}, year={2020} }

搜集汇总

数据集介绍

构建方式

HJDataset 是一个包含超过250,000个复杂布局元素标注的历史日本文献大型数据集。该数据集不仅提供了内容区域的边界框和掩码，还包含了布局元素的层次结构和阅读顺序，以支持高级分析。数据集的构建通过精细的标注流程，确保了每个元素的准确性和完整性，从而为研究者提供了丰富的历史文献分析资源。

使用方法

使用 HJDataset 时，研究者可以通过提供的链接下载标注文件，并通过填写特定表格申请获取图像数据。数据集的文件组织建议按照训练、测试和验证集进行分类，并包含相应的标注文件。此外，数据集还提供了环境配置文件和入门代码，帮助用户快速上手，包括数据加载和可视化，以及使用 Detectron2 进行模型训练的示例。

背景与挑战

背景概述

HJDataset，即历史日本文档复杂布局大型数据集，由Zejiang Shen、Kaixuan Zhang和Melissa Dell等研究人员于2020年创建。该数据集专注于历史日本文档的复杂布局分析，包含超过25万条布局元素的标注，涵盖七种类型。除了内容区域的边界框和掩码外，数据集还提供了布局元素的层次结构和阅读顺序，为高级分析提供了丰富的信息。HJDataset的推出填补了历史文档分析领域中复杂布局数据集的空白，为研究者提供了宝贵的资源，推动了文档图像分析、自然语言处理等领域的技术进步。

当前挑战

HJDataset在构建过程中面临诸多挑战。首先，历史日本文档的复杂布局使得标注工作异常繁琐，需要精确的层次结构和阅读顺序信息，增加了数据集的构建难度。其次，由于版权问题，数据集中的图像无法直接公开，研究者需通过特定流程申请下载，这在一定程度上限制了数据集的广泛使用。此外，数据集的复杂性也对模型训练提出了更高的要求，尤其是在使用Detectron2等工具进行分割模型训练时，可能会遇到安装和配置上的问题，进一步增加了研究的复杂性。

常用场景

经典使用场景

HJDataset，作为包含大量复杂布局的历史日本文档数据集，其经典使用场景主要集中在文档图像分析与处理领域。研究者可利用该数据集进行布局元素的识别与分割，尤其是对七种不同类型的布局元素进行精确标注。此外，数据集提供的层次结构和阅读顺序信息，使得研究者能够进行更高级的文档结构分析，从而在历史文献的数字化与自动化处理方面取得突破。

解决学术问题

HJDataset通过提供丰富的布局元素标注和层次结构信息，有效解决了历史文档数字化过程中面临的复杂布局识别难题。这一数据集不仅为文档图像分析领域的研究提供了宝贵的资源，还推动了自动化文档处理技术的发展，特别是在历史文献的数字化与结构化分析方面，具有重要的学术价值和实际意义。

实际应用

在实际应用中，HJDataset可广泛应用于历史文献的数字化与自动化处理，如古籍修复、历史档案管理等。通过利用该数据集训练的模型，可以实现对复杂布局文档的自动识别与分割，从而提高数字化工作的效率和准确性。此外，该数据集还可用于文化遗产保护与传承，为历史文献的长期保存与研究提供技术支持。

数据集最近研究