NDL-DocLデータセット

github2024-03-05 更新2024-05-31 收录

下载链接：

https://github.com/ndl-lab/layout-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

NDL-DocL数据集是由国立国会图书馆数字收藏提供的资料图像数据集，包括古典籍资料和明治期以降刊行资料两种类型。数据集包含图像和注释数据，支持自由的二次利用，但需遵守一定的使用规则。

The NDL-DocL dataset is a collection of document images provided by the National Diet Library Digital Collections, encompassing two categories: classical literature materials and publications issued from the Meiji period onwards. The dataset includes both images and annotated data, supporting unrestricted secondary use, subject to certain usage regulations.

创建时间：

2019-10-19

原始信息汇总

NDL-DocLデータセット概要

1. データセットの提供元

提供元: 国立国会図書館デジタルコレクション（デジコレ）
資料範囲: 古典籍資料、明治期以降刊行資料

2. データセットの内訳

古典籍資料: 1,219画像
明治期以降刊行資料: 1,071画像

3. データセットの権利

権利表示: PDM（パブリック・ドメイン・マーク）
二次利用条件: 自由な二次利用が可能。二次利用時には、編集・加工の明示、自由利用の表記保持、名声保護、著作権以外の権利遵守、バージョン明記を求められる。

4. データセットの構成

資料画像: jpeg形式
アノテーションデータ: xml形式（Pascal VOC形式）
ディレクトリ命名規則: 資料のPID（Persistent Identifier）を使用
ファイル命名規則: (PID)_(コマ番号)

5. 各資料に関する詳細情報

古典籍資料:
- 特徴: 明治期より前の出版物，含む資料: 浮世絵、和書・漢籍
- 予測対象ラベル: 1_overall, 2_handwritten, 3_typography, 4_illustration, 5_stamp
明治期以降刊行資料:
- 特徴: 明治期以降の出版物，含む資料: 冊子、マイクロ資料
- 予測対象ラベル: 1_overall, 4_illustration, 5_stamp, 6_headline, 7_caption, 8_textline, 9_table

搜集汇总

数据集介绍

构建方式

NDL-DocL数据集由日本国立国会图书馆数字馆藏提供，主要包含两类资料：古典籍资料和明治期以后刊行资料。数据集中的图像数据来源于该馆的数字馆藏，而注释数据则由馆内专业人员重新创建。每张图像均配有JPEG格式的图片和XML格式的注释数据，注释数据采用Pascal VOC格式，详细描述了图像中的矩形区域和标签信息。

特点

NDL-DocL数据集的特点在于其丰富的历史文献资源，涵盖了从古典籍到近代出版物的广泛内容。古典籍资料包括浮世绘、和书及汉籍，而明治期以后刊行资料则多为册子形态的出版物，包含大量带有强烈噪声的数字化资料。数据集中的每张图像都配有详细的布局注释，标注了图像中的不同区域，如文字、插图、印影等，为研究者提供了丰富的信息。

使用方法

使用NDL-DocL数据集时，用户可以通过提供的URL下载数据集，并根据需要选择古典籍资料或明治期以后刊行资料。每张图像的注释数据以XML格式提供，用户可以通过解析这些XML文件获取图像中的布局信息。数据集的使用遵循公共领域标记（PDM），允许自由二次利用，但需在编辑或加工时注明修改，并保持数据集的自由使用声明。此外，用户在使用数据集时应尊重原作品及其作者的名誉，并遵守相关法律法规。

背景与挑战

背景概述

NDL-DocL数据集由日本国立国会图书馆于2019年12月发布，旨在为研究者和开发者提供一个关于古籍和明治时期以后出版物的图像布局数据集。该数据集包含两类资料：古典籍资料和明治期以降刊行资料，分别提供了1,219张和1,071张图像。每张图像均配有Pascal VOC格式的注释数据，详细标注了图像中的矩形区域及其对应的标签。该数据集的发布不仅为文档图像分析、布局识别等领域的研究提供了宝贵资源，还促进了文化遗产的数字化保存与利用。

当前挑战

NDL-DocL数据集在解决文档图像布局识别问题时面临多重挑战。首先，古籍资料中的文字多为手写体，字形复杂且多变，增加了自动识别的难度。其次，明治期以后的出版物由于年代久远，图像质量参差不齐，存在大量噪声，影响了布局分析的准确性。在数据构建过程中，注释工作需对每张图像进行细致的区域划分和标签标注，这一过程耗时且易受主观因素影响。此外，如何确保注释的一致性和准确性，以及如何处理不同资料类型之间的差异，也是构建该数据集时需克服的重要挑战。

常用场景

经典使用场景

NDL-DocL数据集在文档图像处理领域具有广泛的应用，特别是在古籍和近代文献的数字化处理中。该数据集通过提供详细的图像和标注数据，支持了文档布局分析、文字识别和图像分割等任务。研究人员可以利用这些数据来训练和验证机器学习模型，以提高对复杂文档结构的理解能力。

解决学术问题

NDL-DocL数据集解决了文档图像处理中的多个关键问题，如古籍和近代文献的自动识别与分类、文字区域的精确分割以及复杂布局的解析。通过提供高质量的标注数据，该数据集为学术界提供了宝贵的资源，推动了文档图像处理技术的发展，特别是在跨文化和跨语言文档处理方面。

衍生相关工作

基于NDL-DocL数据集，许多经典的研究工作得以展开。例如，研究人员开发了先进的文档布局分析算法，提高了对古籍和近代文献的自动处理能力。此外，该数据集还促进了多模态学习模型的发展，结合图像和文本信息，提升了文档理解的准确性和效率。

以上内容由遇见数据集搜集并总结生成