gt_structure_text

github2024-05-15 更新2024-05-31 收录

下载链接：

https://github.com/OCR-D/gt_structure_text

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集创建于2015至2017年，此后经过进一步的整理和适当的元数据补充。数据集包含页面XML文件，其中包含文本和结构的注释。数据基于德国文本档案馆（DTA）的转录数据。

This dataset was created between 2015 and 2017 and has since undergone further organization and appropriate metadata supplementation. The dataset includes page XML files containing annotations of text and structure. The data is based on transcription data from the German Text Archive (DTA).

创建时间：

2022-11-30

原始信息汇总

数据集概述

基本信息

数据集名称: gt_structure_text
创建时间: 2015 - 2017年
数据来源: 德国文本档案馆 (DTA) (https://www.deutschestextarchiv.de/)

元数据

语言: eng, fra, deu, heb, lat
格式: Page-XML
时间范围: 1500-1900
GT类型: data_structure_and_text
许可证: CC-BY-SA-4.0
转录指南: OCR-D Ground Truth Guidelines https://ocr-d.de/en/gt-guidelines/trans/
项目: OCR-D
项目URL: https://ocr-d.de/

数据量

文本行: 6609
页面: 217
文本区域: 1648
图像区域: 1
图形区域: 74
表格区域: 3
分隔区域: 141
数学区域: 1
音乐区域: 4
噪声区域: 17

转录列表

文档: 多个文档，每个文档包含不同类型的区域（如文本区域、图像区域等）的数量统计。
示例:
- 文档: nn_lied_1520
  - 文本区域: 5
  - 分隔区域: 1
  - 噪声区域: 1
  - 文本行: 22
  - 页面: 1
- 文档: silesius_seelenlust01_1657
  - 文本区域: 38
  - 图形区域: 1
  - 分隔区域: 7
  - 音乐区域: 4
  - 文本行: 137
  - 页面: 5
- 文档: nn_mirabilia_1500
  - 文本区域: 10
  - 图形区域: 2
  - 文本行: 58
  - 页面: 3
- 文档: loeber_heuschrecken_1693
  - 文本区域: 15
  - 图形区域: 1
  - 分隔区域: 3
  - 文本行: 87
  - 页面: 3
- 文档: rollenhagen_reysen_1603
  - 文本区域: 22
  - 分隔区域: 1
  - 文本行: 81
  - 页面: 3
- 文档: luther_babstum_1526
  - 文本区域: 7
  - 图形区域: 2
  - 文本行: 51
  - 页面: 2
- 文档: huebner_handbuch_1696
  - 文本区域: 26
  - 分隔区域: 4
  - 噪声区域: 4
  - 文本行: 78
  - 页面: 3
- 文档: reinkingk_policey_1653_teil1
  - 文本区域: 20
  - 分隔区域: 1
  - 文本行: 146
  - 页面: 3
- 文档: benner_herrnhuterey04_1748
  - 文本区域: 37
  - 分隔区域: 6
  - 文本行: 144
  - 页面: 4
- 文档: reinkingk_policey_1653_teil2
  - 文本区域: 21
  - 分隔区域: 1
  - 文本行: 108
  - 页面: 2
- 文档: vespucci_insule_1506
  - 文本区域: 7
  - 文本行: 62
  - 页面: 2
- 文档: arnold_ketzerhistorie01_1699
  - 文本区域: 43
  - 分隔区域: 6
  - 文本行: 378
  - 页面: 4
- 文档: luz_blitz_1784
  - 文本区域: 17
  - 图形区域: 1
  - 分隔区域: 4
  - 文本行: 110
  - 页面: 4
- 文档: basilius_legendi_1515
  - 文本区域: 12
  - 图形区域: 2
  - 文本行: 82
  - 页面: 3
- 文档: clauren_mimil_1815
  - 文本区域: 44
  - 分隔区域: 1
  - 文本行: 206
  - 页面: 9
- 文档: pistoris_regiment_1506
  - 文本区域: 12
  - 文本行: 90
  - 页面: 3
- 文档: nn_lied_1515
  - 文本区域: 6
  - 文本行: 25
  - 页面: 1
- 文档: valentinus_occulta_1603
  - 文本区域: 22
  - 图形区域: 1
  - 噪声区域: 1
  - 文本行: 164
  - 页面: 6
- 文档: gerstner_mechaniktafeln01_1831
  - 文本区域: 2
  - 图像区域: 1
  - 文本行: 2
  - 页面: 1
- 文档: bohse_helicon_1696
  - 文本区域: 35
  - 图形区域: 3
  - 分隔区域: 2
  - 文本行: 121
  - 页面: 5
- 文档: pinder_epiphanie_1506
  - 文本区域: 31
  - 图形区域: 1
  - 噪声区域: 5
  - 文本行: 169
  - 页面: 4
- 文档: boeschenstain_gedicht_1520
  - 文本区域: 9
  - 图形区域: 1
  - 文本行: 45
  - 页面: 1
- 文档: alberti_pictura_1540
  - 文本区域: 22
  - 噪声区域: 1
  - 文本行: 94
  - 页面: 3
- 文档: osiander_predigt_1553
  - 文本区域: 7
  - 文本行: 57
  - 页面: 2
- 文档: herder_geschichte03_1787
  - 文本区域: 5
  - 分隔区域: 3
  - 文本行: 14
  - 页面: 1
- 文档: heyden_paedono_1548
  - 文本区域: 19
  - 文本行: 72
  - 页面: 3
- 文档: witzstat_buchszbaum_1540
  - 文本区域: 13
  - 文本行: 47
  - 页面: 2
- 文档: oesterreicher_sachsen_1548
  - 文本区域: 8
  - 图形区域: 2
  - 文本行: 48
  - 页面: 2
- 文档: brenz_abentmal_1550
  - 文本区域: 22
  - 文本行: 89
  - 页面: 4
- 文档: kistler_kraeuter_1500
  - 文本区域: 14
  - 文本行: 58
  - 页面: 2
- 文档: kant_aufklaerung_1784
  - 文本区域: 15
  - 分隔区域: 4
  - 文本行: 55
  - 页面: 2
- 文档: buerger_gedichte_1778
  - 文本区域: 14
  - 分隔区域: 6
  - 文本行: 52
  - 页面: 2
- 文档: petrarca_psalmi_1506
  - 文本区域: 13
  - 噪声区域: 2
  - 文本行: 64
  - 页面: 3
- 文档: blumenbach_anatomie_1805
  - 文本区域: 20
  - 文本行: 84
  - 页面: 3
- 文档: praetorius_verrichtung_1668
  - 文本区域: 38
  - 分隔区域: 2
  - 文本行: 121
  - 页面: 5

以上信息概述了数据集的基本情况，包括数据集的名称、创建时间、数据来源、元数据信息、数据量以及详细的转录列表。

搜集汇总

数据集介绍

构建方式

gt_structure_text数据集的构建始于2015年至2017年间，基于德国文本档案馆（DTA）中的转录数据。该数据集通过进一步的整理和补充元数据，形成了包含文本和结构注释的Page-XML文件。其构建过程严格遵循OCR-D Ground Truth指南，确保了数据的高质量和一致性。

特点

gt_structure_text数据集的显著特点在于其多语言覆盖，包括英语、法语、德语、希伯来语和拉丁语，时间跨度从1500年至1900年。此外，数据集的格式为Page-XML，这种格式便于对文本和结构进行详细的注释和分析。数据集还包含了多种类型的区域注释，如文本区域、图像区域等，为研究提供了丰富的信息。

使用方法

gt_structure_text数据集适用于多种研究场景，特别是在OCR（光学字符识别）和文本结构分析领域。研究者可以通过解析Page-XML文件，提取文本和结构信息，进行进一步的分析和处理。此外，数据集的开放许可（CC-BY-SA-4.0）允许广泛的使用和共享，促进了学术研究的开放性和协作性。

背景与挑战

背景概述

gt_structure_text数据集，由OCR-D项目在2015年至2017年间创建，旨在为文本和结构标注提供高质量的基准数据。该数据集基于德国文本档案馆（DTA）的转录数据，涵盖了1500年至1900年的多种语言文本，包括英语、法语、德语、希伯来语和拉丁语。通过Page-XML格式，数据集详细标注了文本区域、图像区域、图形区域等多种结构信息，为历史文献的数字化处理和分析提供了重要支持。

当前挑战

该数据集面临的挑战主要包括：1) 多语言文本的复杂性，不同语言的书写风格和排版结构差异较大，增加了标注的难度；2) 历史文献的多样性，涵盖了从1500年到1900年的广泛时间跨度，文献的保存状态和格式各异，导致数据处理的复杂性增加；3) 数据集的构建过程中，需要对大量历史文献进行手动转录和标注，工作量大且容易出错。此外，如何确保标注的一致性和准确性也是该数据集面临的重要挑战。

常用场景

经典使用场景

gt_structure_text数据集的经典使用场景主要集中在历史文献的数字化处理与分析领域。通过该数据集，研究者可以对1500至1900年间的多语言文献进行文本与结构的精确标注，从而为OCR（光学字符识别）技术的训练与评估提供高质量的基准数据。此外，该数据集还广泛应用于历史文本的自动解析、结构化信息提取以及古籍数字化保护等任务，极大地推动了文化遗产的数字化进程。

衍生相关工作

基于gt_structure_text数据集，衍生了许多经典的研究工作。例如，研究者利用该数据集开发了多种OCR模型，显著提升了历史文献的识别精度。此外，该数据集还推动了文本结构化提取技术的研究，使得历史文献中的复杂结构信息能够被自动解析与利用。在跨语言研究方面，基于该数据集的工作也为多语言文献的自动翻译与对比研究提供了新的思路。总体而言，gt_structure_text数据集为历史文献的数字化与智能化处理奠定了坚实的基础，推动了相关领域的技术进步与学术发展。

数据集最近研究