transkribus-exports-74823-raw-xml
收藏Hugging Face2026-01-15 更新2026-01-16 收录
下载链接:
https://huggingface.co/datasets/dh-unibe/transkribus-exports-74823-raw-xml
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是通过Transkribus PageXML数据转换而来,包含71025个样本,分为1个训练集。数据集特性包括图像、XML内容、文件名和项目名称。数据组织为按分割和项目名称组织的parquet文件。数据集可用于图像到文本的转换、手写文本识别(HTR)、TrOCR(Transformer-based Optical Character Recognition)和转录等任务。
创建时间:
2026-01-14
原始信息汇总
数据集概述
基本信息
- 数据集名称:transkribus-exports-74823-raw-xml
- 创建方式:使用 pagexml-hf 转换器从 Transkribus PageXML 数据创建
- 许可证:MIT
数据集规模与结构
- 总样本数:71,025
- 数据拆分:仅包含一个拆分(train),包含全部 71,025 个样本
- 数据集总大小:约 1,462,295.17 MB(1,533,327,616,050 字节)
- 下载大小:1,533,327,616,050 字节
数据特征
数据集包含以下四个特征:
- image:图像数据,类型为
Image(mode=None, decode=False) - xml_content:XML 内容,类型为字符串
- filename:文件名,类型为字符串
- project_name:项目名称,类型为字符串
包含的项目
数据集包含以下项目,项目名称格式为“Band_编号_年份”:
- Band_001_1848-1849
- Band_003_1849
- Band_004_1849
- Band_005_1850
- Band_006_1850
- Band_007_1851
- Band_008_1851
- Band_009_1851
- Band_010_1852
- Band_011_1852
- Band_012_1852
- Band_092_1873
- Band_093_1873
- Band_094_1873
- Band_095_1873
- Band_096_1874
- Band_097_1874
- Band_098_1874
- Band_099_1874
- Band_104_1876
- Band_105_1876
- Band_106_1876
- Band_107_1876
- Band_108_1877
- Band_109_1877
- Band_110_1877
- Band_111_1877
- Band_112_1878
- Band_113_1878
- Band_132_1883
- Band_133_1883
- Band_134_1883
- Band_135_1883
- Band_136_1884
- Band_137_1884
- Band_138_1884
- Band_139_1884
- Band_140_1885
- Band_141_1885
- Band_142_1885
- Band_143_1885
- Band_144_1886
- Band_166_1891
- Band_167_1891
- Band_168_1892
- Band_169_1892
- Band_170_1892
- Band_171_1892
- Band_172_1893
- Band_173_1893
- Band_174_1893
- Band_175_1893
- Band_176_1894
- Band_177_1894
- Band_178_1894
- Band_179_1894
- Band_180_1895
- Band_181_1895
- Band_182_1895
- Band_183_1895
- Band_184_1896
- Band_185_1896
- Band_186_1896
- Band_187_1896
- Band_188_1897
- Band_189_1897
- Band_190_1897
- Band_191_1897
- Band_192_1898
- Band_193_1898
- Band_194_1898
- Band_195_1898
- Band_196_1899
- Band_197_1899
- Band_198_1899
- Band_199_1899
- Band_200_1900
- Band_201_1900
- Band_202_1900
- Band_203_1900
- Band_204_1901
- Band_205_1901
- Band_206_1901
- Band_207_1901
- Band_208_1902
- Band_209_1902
- Band_210_1902
- Band_211_1902
- Band_212_1903
- Band_213_1903
- Band_214_1903
- Band_215_1903
数据组织方式
数据按拆分和项目组织为 Parquet 分片文件,结构如下:
data/ ├── <split>/ │ └── <project_name>/ │ └── <timestamp>-<shard>.parquet
HuggingFace Hub 在加载数据集时会自动合并所有 Parquet 文件。
相关标签
- image-to-text
- htr
- trocr
- transcription
- pagexml
使用方式
python from datasets import load_dataset
加载整个数据集
dataset = load_dataset("dh-unibe/transkribus-exports-74823-raw-xml")
加载特定拆分
train_dataset = load_dataset("dh-unibe/transkribus-exports-74823-raw-xml", split="train")
搜集汇总
数据集介绍

构建方式
在历史文档数字化领域,transkribus-exports-74823-raw-xml数据集通过Transkribus平台从原始PageXML数据转换而来,涵盖了19世纪中期至20世纪初的多个历史卷宗项目。其构建过程依托pagexml-hf转换工具,将扫描文档图像与对应的XML结构化转录内容进行精确对齐,形成统一的Parquet格式分片,确保了数据在存储与加载时的高效性。该数据集共包含71025个样本,全部归属于训练分割,每个样本均整合了图像、XML内容、文件名及项目名称等核心特征,为手写文本识别研究提供了扎实的原始资料基础。
使用方法
利用该数据集进行手写文本识别研究时,研究者可通过Hugging Face的datasets库便捷加载。使用load_dataset函数并指定数据集路径,即可完整导入或按训练分割获取数据。数据以Parquet分片形式组织,系统会自动合并处理,用户可直接访问图像、XML内容等字段。典型应用包括训练或评估基于Transformer的识别模型,通过解析XML内容提取文本行级标注,与图像区域对齐以构建监督学习任务。这种集成化的访问方式显著降低了历史文档处理的技术门槛,推动了数字化人文研究的进展。
背景与挑战
背景概述
Transkribus-exports-74823-raw-xml数据集源自数字人文领域,由瑞士伯尔尼大学数字人文中心(DH-UniBE)基于Transkribus平台构建,发布于HuggingFace平台。该数据集聚焦于历史文档的自动化转录与文本识别,核心研究问题在于解决手写体文字识别(HTR)与光学字符识别(OCR)在复杂历史文献中的应用难题。数据集收录了19世纪中后期至20世纪初的德文期刊页面图像及对应的PageXML标注,涵盖1848年至1903年间多个卷册,共计71025个样本,为历史文献的数字化保存与智能分析提供了关键资源,推动了文化遗产计算与自然语言处理技术的交叉融合。
当前挑战
该数据集旨在应对历史手写文档图像到文本转录的领域挑战,包括处理多样化的字体风格、褪色或破损的页面质量以及复杂的版面结构,这些因素导致传统OCR方法准确率受限。在构建过程中,挑战主要源于历史文献的异质性,如墨水渗透、纸张老化及多语言混排,增加了标注一致性与数据清洗的难度;同时,大规模PageXML格式数据的转换与标准化处理需克服技术集成与存储效率问题,确保数据在机器学习框架下的可用性与可扩展性。
常用场景
经典使用场景
在历史文献数字化与手写文本识别领域,transkribus-exports-74823-raw-xml数据集作为图像与结构化文本对齐的典范资源,其经典使用场景集中于训练和评估端到端的手写文本识别模型。该数据集整合了19世纪至20世纪初的德文历史期刊图像及其对应的PageXML标注,为研究者提供了丰富的多模态训练样本,使得模型能够学习从复杂历史手写字体到可编辑文本的精确映射,尤其在处理古老印刷体或手写变体时展现出独特价值。
解决学术问题
该数据集有效解决了历史文献自动化转录中的若干核心学术问题,包括手写文本识别在低质量扫描图像上的鲁棒性提升、多语言历史字体下的字符分割与识别挑战,以及结构化标注(PageXML)与原始图像的对齐一致性验证。通过提供大规模、时序跨度长的标注数据,它促进了文档图像分析领域对历史书写风格演变的理解,并为数字化人文研究中的文本挖掘与语义分析奠定了数据基础,显著降低了历史档案人工转录的成本与误差。
实际应用
在实际应用层面,该数据集支撑了文化遗产机构的自动化档案数字化流程,例如图书馆、博物馆可将历史期刊批量转换为可搜索的电子文本,便于公众检索与学术研究。同时,它也被集成到Transkribus等专业转录平台中,作为预训练数据以优化商业级HTR服务,帮助历史学家、谱系学家快速提取文献中的关键信息,从而加速历史事件重建、社会变迁分析等跨学科研究项目的进展。
数据集最近研究
最新研究方向
在历史文档数字化与手写文本识别领域,transkribus-exports-74823-raw-xml数据集凭借其大规模、结构化的图像与XML标注对,正推动前沿研究向多模态智能处理深化。当前热点聚焦于利用Transformer架构如TrOCR模型,提升对19世纪至20世纪初德文印刷体文档的端到端识别精度,同时结合PageXML的丰富语义层级,探索文档布局分析与实体抽取的联合建模。这一趋势呼应了文化遗产保护中自动化转录的迫切需求,不仅加速了历史资料的学术挖掘,也为跨语言、跨时代的文档理解系统提供了关键训练资源,具有显著的学术与社会价值。
以上内容由遇见数据集搜集并总结生成



