five

gt_structure_1_4

收藏
github2024-05-15 更新2024-05-31 收录
下载链接:
https://github.com/OCR-D/gt_structure_1_4
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是OCR-D Ground Truth Structure corpus的一部分,专门用于标注打印页面的结构。数据集创建于DFG项目OCR-D,并遵循OCR-D-GT-Guideline的结构地面实况转录指南。

This dataset is part of the OCR-D Ground Truth Structure corpus, specifically designed for annotating the structure of printed pages. It was created within the DFG project OCR-D and adheres to the OCR-D-GT-Guideline for structural ground truth transcription.
创建时间:
2022-10-27
原始信息汇总

数据集概述

数据集名称

  • 名称: gt_structure_1_4

数据集描述

  • 描述: 该数据集是OCR-D Ground Truth Structure corpus的一部分,专注于打印页面的结构标注。数据集的创建源于DFG项目OCR-D。

数据集元数据

  • 语言: deu
  • 格式: Page-XML
  • 时间范围: 1600-1900
  • GT类型: data_structure
  • 许可证: CC0-1.0
  • 转录指南: OCR-D-GT-Guideline, Part: Structure Ground Truth
  • 项目: OCR-D

数据集来源

  • 转录量统计:
    • TxtRegion: 5246
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 95
    • TabRegion: 40
    • ChartRegion: 0
    • SepRegion: 278
    • MathRegion: 16
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 1256

转录列表

  • 文档: eytelwein_faschinenwerke_1800

    • TxtRegion: 90
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 6
    • ChartRegion: 0
    • SepRegion: 3
    • MathRegion: 2
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 20
  • 文档: dilger_arndes_1620

    • TxtRegion: 51
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 0
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 21
  • 文档: fabricius_oratorie_1724

    • TxtRegion: 124
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 3
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 24
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 27
  • 文档: dapper_amerika_1673

    • TxtRegion: 185
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 5
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 1
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 26
  • 文档: ernst_nordamerika_1820

    • TxtRegion: 66
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 6
    • ChartRegion: 0
    • SepRegion: 22
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 20
  • 文档: falke_trachten01_1858

    • TxtRegion: 88
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 0
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 20
  • 文档: eichendorff_taugenichts_1826

    • TxtRegion: 67
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 0
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 20
  • 文档: ebeling_betrachtungen04_1747

    • TxtRegion: 135
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 5
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 28
  • 文档: drude_pflanzengeographie_1890

    • TxtRegion: 96
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 9
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 20
  • 文档: eckermann_goethe02_1836

    • TxtRegion: 106
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 1
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 0
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 20
  • 文档: doyle_fechtkunst_1715

    • TxtRegion: 39
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 15
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 2
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 24
  • 文档: dronke_polizeigeschichten_1846

    • TxtRegion: 98
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 0
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 20
  • 文档: dohm_juden02_1783

    • TxtRegion: 71
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 1
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 20
  • 文档: ebeling_betrachtungen03_1747

    • TxtRegion: 86
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 5
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 27
  • 文档: euler_rechenkunst02_1740

    • TxtRegion: 136
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 2
    • ChartRegion: 0
    • SepRegion: 2
    • MathRegion: 4
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 25
  • 文档: falke_trachten02_1858

    • TxtRegion: 90
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 3
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 20
  • 文档: daumer_krone_1859

    • TxtRegion: 49
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 0
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 20
  • 文档: faulhaber_instrument_1610

    • TxtRegion: 157
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 3
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 5
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 24
  • 文档: fichte_reden_1808

    • TxtRegion: 46
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 2
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 20
  • 文档: feuerbach_christentum_1841

    • TxtRegion: 79
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 33
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 20
  • 文档: estor_rechtsgelehrsamkeit01_1757

    • TxtRegion: 208
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 1
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 3
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 21
  • 文档: ercker_aula02_1672

    • TxtRegion: 101
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 3
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 1
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 23
  • 文档: diesterweg_universitaeten_1836

    • TxtRegion: 46
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 1
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 20
  • 文档: fiedler_kuenstlerische_1887

    • TxtRegion: 56
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 0
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion: 0
    • TextLine: 0
    • Page: 20
  • 文档: fichte_wissenschaftslehre_1794

    • TxtRegion: 90
    • ImgRegion: 0
    • LineDrawRegion: 0
    • GraphRegion: 0
    • TabRegion: 0
    • ChartRegion: 0
    • SepRegion: 18
    • MathRegion: 0
    • ChemRegion: 0
    • MusicRegion: 0
    • AdRegion: 0
    • NoiseRegion: 0
    • UnknownRegion: 0
    • CustomRegion:
搜集汇总
数据集介绍
main_image_url
构建方式
gt_structure_1_4数据集作为OCR-D项目的一部分,专注于印刷页面结构的标注。该数据集的构建基于对1600至1900年间德语文献的页面结构进行详细标注,采用Page-XML格式存储。其构建过程遵循OCR-D-GT-Guideline中的结构标注指南,确保标注的一致性和准确性。通过这种方式,数据集为研究者提供了丰富的页面结构信息,支持OCR技术的进一步优化与研究。
特点
gt_structure_1_4数据集的主要特点在于其专注于页面结构的标注,而非文本内容。该数据集涵盖了多种页面元素,如文本区域、图形区域、表格区域等,共计1256页的标注数据。此外,数据集采用Page-XML格式,便于与其他OCR工具和数据集进行兼容和集成。其开放的CC0-1.0许可证使得研究者可以自由使用和修改数据,极大地促进了相关领域的研究与应用。
使用方法
gt_structure_1_4数据集适用于OCR技术中的页面结构识别与分析任务。研究者可以通过解析Page-XML格式的文件,提取页面中的各种区域信息,如文本区域、图形区域等,用于训练和评估页面结构识别模型。此外,数据集的开放性和详细标注使其成为OCR-D项目中页面结构研究的重要资源,支持多种OCR相关应用的开发与优化。
背景与挑战
背景概述
gt_structure_1_4数据集是OCR-D项目中的一部分,隶属于OCR-D Ground Truth Structure语料库。该数据集专注于对印刷页面结构的标注,创建于德国研究基金会(DFG)资助的OCR-D项目中。其核心研究问题在于提供高质量的页面结构标注,以便于光学字符识别(OCR)技术的改进。该数据集的时间跨度为1600至1900年,涵盖了多种历史文献,对历史文献的数字化处理和OCR技术的发展具有重要意义。
当前挑战
gt_structure_1_4数据集在构建过程中面临多项挑战。首先,历史文献的多样性和复杂性使得页面结构的标注工作异常繁琐,尤其是不同年代的印刷风格和排版方式的差异。其次,数据集的构建需要高度专业化的知识,以确保标注的准确性和一致性。此外,数据集的扩展和修正依赖于社区的反馈,如何有效管理和整合这些反馈也是一个持续的挑战。最后,该数据集的应用领域主要集中在OCR技术的改进,如何进一步提升OCR系统的性能,尤其是在处理复杂页面结构时的表现,是该数据集未来需要解决的关键问题。
常用场景
经典使用场景
gt_structure_1_4数据集在光学字符识别(OCR)领域中,主要用于训练和评估文档页面结构的解析模型。其经典使用场景包括对历史印刷文档的页面布局进行分析,识别文本区域、表格区域、图像区域等不同类型的页面元素。通过该数据集,研究者可以开发和优化OCR系统,使其能够更准确地理解和处理复杂文档的结构信息。
解决学术问题
该数据集解决了OCR领域中长期存在的文档结构解析难题,尤其是在处理历史文档时,如何准确识别和区分不同类型的页面元素。通过提供详细的页面结构标注,gt_structure_1_4为学术界提供了一个标准化的基准,推动了OCR技术的进步。其意义在于,它不仅提升了OCR系统的准确性,还为历史文献的数字化和自动化处理提供了技术支持。
衍生相关工作
基于gt_structure_1_4数据集,研究者们开发了多种OCR相关的算法和工具,推动了文档结构解析技术的发展。例如,一些研究工作利用该数据集进行深度学习模型的训练,提升了页面元素识别的准确性。此外,该数据集还激发了关于历史文档自动标注和结构化数据提取的研究,衍生出了一系列关于文档图像分析和处理的经典工作,进一步丰富了OCR领域的研究成果。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作