image-text_historisches-grundbuch-basel_xix-xx
收藏Hugging Face2026-02-14 更新2026-02-15 收录
下载链接:
https://huggingface.co/datasets/dh-unibe/image-text_historisches-grundbuch-basel_xix-xx
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含10246个样本,通过pagexml-hf转换器从Transkribus PageXML数据创建。数据集结构包括一个训练集分割,总大小约为137687.84 MB。每个样本包含四个特征:图像(未解码)、XML内容(字符串格式)、文件名(字符串格式)和项目名称(字符串格式)。数据以parquet文件形式按分割和项目组织,适用于图像到文本转换、手写文本识别(HTR)、TrOCR、转录和PageXML处理等任务。数据集采用MIT许可证。
创建时间:
2026-02-12
原始信息汇总
数据集概述
基本信息
- 数据集名称: image-text_historisches-grundbuch-basel_xix-xx
- 数据集地址: https://huggingface.co/datasets/dh-unibe/image-text_historisches-grundbuch-basel_xix-xx
- 许可证: MIT
- 标签: image-to-text, htr, trocr, transcription, pagexml
数据集摘要
该数据集使用 pagexml-hf 转换器从 Transkribus PageXML 数据创建。它包含 10246 个样本,分布在 1 个数据拆分中。
数据集结构
数据拆分
- train: 10246 个样本
数据集规模
- 总样本数: 10246
- 下载大小: 144376160588 字节
- 数据集大小: 144376160588 字节
- 近似总大小: 137687.84 MB
数据特征
- image:
Image(mode=None, decode=False) - xml_content:
Value(string) - filename:
Value(string) - project_name:
Value(string)
包含的项目
数据集包含多个项目,项目名称前缀为 HGB_1_,例如:HGB_1_001_001, HGB_1_001_002, ..., HGB_1_009_002。
数据组织
数据按拆分和项目组织为 Parquet 分片:
data/ ├── <split>/ │ └── <project_name>/ │ └── <timestamp>-<shard>.parquet
HuggingFace Hub 在加载数据集时会自动合并所有 Parquet 文件。
使用方式
python from datasets import load_dataset
加载整个数据集
dataset = load_dataset("dh-unibe/image-text_historisches-grundbuch-basel_xix-xx")
加载特定拆分
train_dataset = load_dataset("dh-unibe/image-text_historisches-grundbuch-basel_xix-xx", split="train")
搜集汇总
数据集介绍

构建方式
在历史文献数字化领域,该数据集源自巴塞尔历史地籍簿的十九至二十世纪档案,通过Transkribus平台提供的PageXML格式数据构建而成。利用pagexml-hf转换工具,将原始的手写文档图像与对应的结构化文本标注进行整合,形成了包含10246个样本的标准化集合。这一过程确保了图像与文本之间的精确对齐,为手写文本识别研究提供了高质量的基准资源。
特点
该数据集以其丰富的多模态特性脱颖而出,每一条记录均包含原始文档图像、对应的XML格式文本内容、文件名及项目名称。图像数据保留了历史文献的视觉细节,而XML内容则嵌入了文本的层次化标注信息,支持复杂的手写文本识别任务。数据集涵盖多个独立项目,总计超过百个子集,展现了历史地籍文档的多样性与复杂性,为跨项目分析提供了可能。
使用方法
研究人员可通过HuggingFace的datasets库便捷地加载该数据集,使用load_dataset函数并指定相应路径即可访问完整数据或特定分割。数据以Parquet格式分片存储,系统会自动合并这些文件,简化了数据预处理流程。该数据集适用于训练和评估手写文本识别模型,如图像到文本转换任务,也可用于历史文档的结构化分析,为数字人文研究提供关键支持。
背景与挑战
背景概述
在数字人文与文档图像分析领域,历史档案的数字化与文本转录是推动学术研究的关键环节。image-text_historisches-grundbuch-basel_xix-xx数据集由瑞士巴塞尔大学数字人文中心(DH-UniBE)创建,其核心研究问题聚焦于十九至二十世纪巴塞尔地区历史地籍簿的自动化手写文本识别(HTR)。该数据集通过Transkribus平台将PageXML格式的标注数据转换为图像-文本对,旨在为训练先进的OCR与HTR模型(如TrOCR)提供高质量资源,从而促进历史文献的语义访问与大规模分析,对欧洲地方史研究与文化遗产保护具有显著影响力。
当前挑战
该数据集致力于解决历史手写文档图像到文本转录的领域挑战,包括因年代久远导致的墨水褪色、纸张破损、多样化的手写风格以及古德语变体带来的识别困难。在构建过程中,研究人员面临数据标注一致性、大规模PageXML数据的高效转换以及图像与文本对齐的精确性等挑战,同时需确保数据格式的标准化以兼容主流机器学习框架,这些因素共同构成了数据集开发的核心难点。
常用场景
经典使用场景
在历史文献数字化与手写文本识别领域,该数据集以其包含的巴塞尔历史土地登记册图像与对应XML转录文本,为图像到文本转换任务提供了经典范例。研究者利用这些十九至二十世纪的文档图像,训练和评估手写文本识别模型,特别是针对德语历史手写体的转录任务,推动了光学字符识别技术在古籍档案处理中的应用。
实际应用
在实际应用中,该数据集支撑了档案馆、图书馆及研究机构的自动化文献数字化工作流。基于此训练的模型能够批量处理历史土地登记册,将扫描图像转化为可搜索、可编辑的文本数据,极大减轻了人工转录的负担,加速了文化遗产的数字化保存与公开访问,为家谱研究、地方史分析及法律历史考证提供了便利。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作,包括基于Transformer的TrOCR模型在历史文档上的适配与优化,以及针对PageXML格式的结构化信息提取方法。这些工作不仅提升了手写文本识别的泛化能力,还推动了版面分析与实体识别技术的融合,为多语言历史文档处理系统的发展奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



