five

image-text_historisches-grundbuch-basel_xix-xx_train

收藏
Hugging Face2026-02-24 更新2026-02-25 收录
下载链接:
https://huggingface.co/datasets/dh-unibe/image-text_historisches-grundbuch-basel_xix-xx_train
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含1009个样本,通过pagexml-hf转换器从Transkribus PageXML数据创建而成。数据集包含以下特征字段:图像(未解码)、XML内容、文件名和项目名称。所有样本均位于训练集分割中,总数据量约为9.2GB。数据集包含多个项目(如HGB_1_079_013系列等),适用于图像到文本转换、手写文本识别(HTR)和转录等任务。数据集采用MIT许可协议发布。
创建时间:
2026-02-21
搜集汇总
数据集介绍
main_image_url
构建方式
在历史文档数字化领域,该数据集源自巴塞尔历史地籍簿的珍贵档案,其构建过程依托于Transkribus平台的PageXML数据转换技术。通过pagexml-hf转换器,原始的手写文档图像与对应的结构化文本标注被系统地整合,形成了包含1962个样本的训练集。这一流程不仅保留了图像与文本的对应关系,还确保了标注信息的完整性与一致性,为后续的机器学习任务提供了高质量的平行语料。
特点
该数据集的核心特征在于其多模态的架构,每一条记录均包含图像、XML内容、文件名及项目名称四个维度。图像字段承载了历史文档的视觉信息,而XML内容则封装了经过精细标注的文本转录与版面分析数据。数据集涵盖了多个独立项目,如HGB_1_079_013系列与HGB_Training系列,展现了丰富的内容多样性与时间跨度。这种结构化的设计使其特别适用于手写文本识别、文档图像分析与跨模态学习等前沿研究方向。
使用方法
在具体应用层面,该数据集主要服务于图像到文本的转换任务,特别是手写文本识别与文档转录领域。研究人员可通过加载Parquet格式的数据文件,直接访问图像与对应的XML标注,利用TrOCR等先进模型进行端到端的训练或评估。数据集的MIT许可证确保了其在学术与开源项目中的广泛可用性,用户可依据项目需求,灵活地将其整合至现有的机器学习流程中,以推动历史文档的自动化处理与知识挖掘。
背景与挑战
背景概述
在历史文档数字化与文本识别领域,巴塞尔历史地籍数据集(image-text_historisches-grundbuch-basel_xix-xx_train)的构建标志着文化遗产保护与人工智能技术的深度融合。该数据集源自19至20世纪的瑞士巴塞尔地籍档案,由相关文化遗产机构或研究团队通过Transkribus平台进行标注与转换,旨在解决历史手写文档的自动转录难题。其核心研究问题聚焦于提升手写文本识别(HTR)模型在复杂历史笔迹、多样化版面布局及多语言混杂情境下的准确性与鲁棒性。这一数据集的发布为古籍数字化、档案学研究及数字人文项目提供了关键训练资源,推动了光学字符识别技术向历史文献领域的纵深拓展。
当前挑战
历史文档转录领域面临多重挑战:手写笔迹的个体差异与时代演变导致字符形态高度变异,版面结构复杂多变,且常夹杂褪色、污渍等退化现象,对识别模型的泛化能力构成严峻考验。数据集构建过程中,原始文档的数字化质量参差不齐,标注工作需依赖专业古文字学知识以确保转录文本的准确性,而大规模标注所需的人力与时间成本极高。此外,数据格式的统一与标准化亦是一大难点,需将Transkribus PageXML数据高效转换为机器学习友好格式,同时保持图像与文本对齐的完整性,这对数据处理流程的稳健性提出了更高要求。
常用场景
经典使用场景
在历史文档数字化与文本识别领域,该数据集以其图像与XML结构化文本的配对形式,为手写文本识别模型提供了宝贵的训练资源。其经典应用场景聚焦于训练端到端的图像到文本转换模型,特别是针对十九至二十世纪巴塞尔地区历史地籍档案中的手写德文内容。通过结合图像特征与PageXML标注,研究者能够构建鲁棒的识别系统,有效处理因年代久远导致的墨迹褪色、纸张破损等复杂情况,从而实现对历史文献内容的精准提取与数字化保存。
实际应用
在实际应用层面,该数据集支撑了档案馆、图书馆及博物馆的历史文献自动化处理系统。基于该数据训练的模型能够高效完成地籍档案、法律文书等历史文档的批量转录,大幅提升档案数字化工作效率。这些系统不仅可用于构建可检索的数字档案库,还能支持历史社会网络分析、财产权变迁研究等学术应用。在文化遗产保护领域,此类技术有助于濒危历史文献的抢救性数字化,为公众提供更便捷的历史资料访问途径。
衍生相关工作
围绕该数据集衍生的经典工作主要集中于改进Transformer架构在历史文档识别中的适应性。研究者基于该数据提出了多种针对历史德文文本的预训练策略,优化了TrOCR模型在古老字体上的识别精度。相关研究还探索了多模态融合方法,将图像视觉特征与文本语义信息相结合,以提升对模糊文本片段的恢复能力。这些工作不仅推动了文档分析技术的发展,也为其他历史语言文档的识别任务提供了可迁移的方法论框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作