transkribus-exports-74823-raw-xml

Hugging Face2026-01-15 更新2026-01-16 收录

下载链接：

https://huggingface.co/datasets/dh-unibe/transkribus-exports-74823-raw-xml

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是通过Transkribus PageXML数据转换而来，包含71025个样本，分为1个训练集。数据集特性包括图像、XML内容、文件名和项目名称。数据组织为按分割和项目名称组织的parquet文件。数据集可用于图像到文本的转换、手写文本识别（HTR）、TrOCR（Transformer-based Optical Character Recognition）和转录等任务。

创建时间：

2026-01-14

原始信息汇总

数据集概述

基本信息

数据集名称：transkribus-exports-74823-raw-xml
创建方式：使用 pagexml-hf 转换器从 Transkribus PageXML 数据创建
许可证：MIT

数据集规模与结构

总样本数：71,025
数据拆分：仅包含一个拆分（train），包含全部 71,025 个样本
数据集总大小：约 1,462,295.17 MB（1,533,327,616,050 字节）
下载大小：1,533,327,616,050 字节

数据特征

数据集包含以下四个特征：

image：图像数据，类型为 Image(mode=None, decode=False)
xml_content：XML 内容，类型为字符串
filename：文件名，类型为字符串
project_name：项目名称，类型为字符串

包含的项目

数据集包含以下项目，项目名称格式为“Band_编号_年份”：

Band_001_1848-1849
Band_003_1849
Band_004_1849
Band_005_1850
Band_006_1850
Band_007_1851
Band_008_1851
Band_009_1851
Band_010_1852
Band_011_1852
Band_012_1852
Band_092_1873
Band_093_1873
Band_094_1873
Band_095_1873
Band_096_1874
Band_097_1874
Band_098_1874
Band_099_1874
Band_104_1876
Band_105_1876
Band_106_1876
Band_107_1876
Band_108_1877
Band_109_1877
Band_110_1877
Band_111_1877
Band_112_1878
Band_113_1878
Band_132_1883
Band_133_1883
Band_134_1883
Band_135_1883
Band_136_1884
Band_137_1884
Band_138_1884
Band_139_1884
Band_140_1885
Band_141_1885
Band_142_1885
Band_143_1885
Band_144_1886
Band_166_1891
Band_167_1891
Band_168_1892
Band_169_1892
Band_170_1892
Band_171_1892
Band_172_1893
Band_173_1893
Band_174_1893
Band_175_1893
Band_176_1894
Band_177_1894
Band_178_1894
Band_179_1894
Band_180_1895
Band_181_1895
Band_182_1895
Band_183_1895
Band_184_1896
Band_185_1896
Band_186_1896
Band_187_1896
Band_188_1897
Band_189_1897
Band_190_1897
Band_191_1897
Band_192_1898
Band_193_1898
Band_194_1898
Band_195_1898
Band_196_1899
Band_197_1899
Band_198_1899
Band_199_1899
Band_200_1900
Band_201_1900
Band_202_1900
Band_203_1900
Band_204_1901
Band_205_1901
Band_206_1901
Band_207_1901
Band_208_1902
Band_209_1902
Band_210_1902
Band_211_1902
Band_212_1903
Band_213_1903
Band_214_1903
Band_215_1903

数据组织方式

数据按拆分和项目组织为 Parquet 分片文件，结构如下：

data/ ├── <split>/ │ └── <project_name>/ │ └── <timestamp>-<shard>.parquet

HuggingFace Hub 在加载数据集时会自动合并所有 Parquet 文件。

使用方式

python from datasets import load_dataset

加载整个数据集

dataset = load_dataset("dh-unibe/transkribus-exports-74823-raw-xml")

加载特定拆分

train_dataset = load_dataset("dh-unibe/transkribus-exports-74823-raw-xml", split="train")

搜集汇总

数据集介绍

构建方式

在历史文档数字化领域，transkribus-exports-74823-raw-xml数据集通过Transkribus平台从原始PageXML数据转换而来，涵盖了19世纪中期至20世纪初的多个历史卷宗项目。其构建过程依托pagexml-hf转换工具，将扫描文档图像与对应的XML结构化转录内容进行精确对齐，形成统一的Parquet格式分片，确保了数据在存储与加载时的高效性。该数据集共包含71025个样本，全部归属于训练分割，每个样本均整合了图像、XML内容、文件名及项目名称等核心特征，为手写文本识别研究提供了扎实的原始资料基础。

使用方法

利用该数据集进行手写文本识别研究时，研究者可通过Hugging Face的datasets库便捷加载。使用load_dataset函数并指定数据集路径，即可完整导入或按训练分割获取数据。数据以Parquet分片形式组织，系统会自动合并处理，用户可直接访问图像、XML内容等字段。典型应用包括训练或评估基于Transformer的识别模型，通过解析XML内容提取文本行级标注，与图像区域对齐以构建监督学习任务。这种集成化的访问方式显著降低了历史文档处理的技术门槛，推动了数字化人文研究的进展。

背景与挑战

背景概述

Transkribus-exports-74823-raw-xml数据集源自数字人文领域，由瑞士伯尔尼大学数字人文中心（DH-UniBE）基于Transkribus平台构建，发布于HuggingFace平台。该数据集聚焦于历史文档的自动化转录与文本识别，核心研究问题在于解决手写体文字识别（HTR）与光学字符识别（OCR）在复杂历史文献中的应用难题。数据集收录了19世纪中后期至20世纪初的德文期刊页面图像及对应的PageXML标注，涵盖1848年至1903年间多个卷册，共计71025个样本，为历史文献的数字化保存与智能分析提供了关键资源，推动了文化遗产计算与自然语言处理技术的交叉融合。

当前挑战

该数据集旨在应对历史手写文档图像到文本转录的领域挑战，包括处理多样化的字体风格、褪色或破损的页面质量以及复杂的版面结构，这些因素导致传统OCR方法准确率受限。在构建过程中，挑战主要源于历史文献的异质性，如墨水渗透、纸张老化及多语言混排，增加了标注一致性与数据清洗的难度；同时，大规模PageXML格式数据的转换与标准化处理需克服技术集成与存储效率问题，确保数据在机器学习框架下的可用性与可扩展性。

常用场景

经典使用场景

在历史文献数字化与手写文本识别领域，transkribus-exports-74823-raw-xml数据集作为图像与结构化文本对齐的典范资源，其经典使用场景集中于训练和评估端到端的手写文本识别模型。该数据集整合了19世纪至20世纪初的德文历史期刊图像及其对应的PageXML标注，为研究者提供了丰富的多模态训练样本，使得模型能够学习从复杂历史手写字体到可编辑文本的精确映射，尤其在处理古老印刷体或手写变体时展现出独特价值。

解决学术问题

该数据集有效解决了历史文献自动化转录中的若干核心学术问题，包括手写文本识别在低质量扫描图像上的鲁棒性提升、多语言历史字体下的字符分割与识别挑战，以及结构化标注（PageXML）与原始图像的对齐一致性验证。通过提供大规模、时序跨度长的标注数据，它促进了文档图像分析领域对历史书写风格演变的理解，并为数字化人文研究中的文本挖掘与语义分析奠定了数据基础，显著降低了历史档案人工转录的成本与误差。

实际应用

在实际应用层面，该数据集支撑了文化遗产机构的自动化档案数字化流程，例如图书馆、博物馆可将历史期刊批量转换为可搜索的电子文本，便于公众检索与学术研究。同时，它也被集成到Transkribus等专业转录平台中，作为预训练数据以优化商业级HTR服务，帮助历史学家、谱系学家快速提取文献中的关键信息，从而加速历史事件重建、社会变迁分析等跨学科研究项目的进展。

数据集最近研究