five

dh-unibe/image-text_rats-und-richtebuecher_xv-xvi

收藏
Hugging Face2026-04-09 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/dh-unibe/image-text_rats-und-richtebuecher_xv-xvi
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: config_name: default features: - name: image dtype: image: decode: false - name: xml_content dtype: string - name: filename dtype: string - name: project_name dtype: string splits: - name: train num_examples: 9885 num_bytes: 70729250850 download_size: 70729250850 dataset_size: 70729250850 configs: - config_name: default data_files: - split: train path: data/train/**/*.parquet tags: - image-to-text - htr - trocr - transcription - pagexml license: mit --- # Dataset Card for image-text_rats-und-richtebuecher_xv-xvi This dataset was created using pagexml-hf converter from Transkribus PageXML data. ## Dataset Summary This dataset contains 9885 samples across 1 split(s). Geographical scope: Switzerland<br>Period: 1400-1550<br>Languages: Middle High German, Early Modern German<br>Type of document: Protocols<br>Provenance: State Archive of Zurich ### Projects Included - Rats-undRichtebücher_MF_1_3543 - Rats-undRichtebücher_MF_1_3544 - Rats-undRichtebücher_MF_1_3545 - Rats-undRichtebücher_MF_1_3546 - Rats-undRichtebücher_MF_1_3547 - Rats-undRichtebücher_MF_1_3548 - Rats-undRichtebücher_MF_1_3549 - Rats-undRichtebücher_MF_1_3550 - Rats-undRichtebücher_MF_1_3551 - Rats-undRichtebücher_MF_1_3552 - Rats-undRichtebücher_MF_1_3553 - Rats-undRichtebücher_MF_1_3554 - Rats-undRichtebücher_MF_1_3555 - Rats-undRichtebücher_MF_1_3556 - Rats-undRichtebücher_MF_1_3557 - Rats-undRichtebücher_MF_1_3558 - Rats-undRichtebücher_MF_1_3559 - Rats-undRichtebücher_MF_1_3560 - Rats-undRichtebücher_MF_1_3561 - Rats-undRichtebücher_MF_1_3562 - Rats-undRichtebücher_MF_1_3563 - Rats-undRichtebücher_MF_1_3564 - Rats-undRichtebücher_MF_1_3565 - Rats-undRichtebücher_MF_1_3566 - Rats-undRichtebücher_MF_1_3567 - Rats-undRichtebücher_MF_1_3568 - Rats-undRichtebücher_MF_1_3569 - Rats-undRichtebücher_MF_1_3570 - Rats-undRichtebücher_MF_1_3571 - Rats-undRichtebücher_MF_1_3572 - Rats-undRichtebücher_MF_1_3573 - Rats-undRichtebücher_MF_1_3574 - Rats-undRichtebücher_MF_1_3575 - TRAINING_VALIDATION_SET_Richtebuecher_M1 - Test_MF_1_3556_p_204 - escript_test - escript_test_2 ## Dataset Structure ### Data Splits - **train**: 9885 samples ### Dataset Size - Approximate total size: 67452.67 MB - Total samples: 9885 ### Features - **image**: `Image(mode=None, decode=False)` - **xml_content**: `Value('string')` - **filename**: `Value('string')` - **project_name**: `Value('string')` ## Data Organization Data is organized as parquet shards by split and project: ``` data/ ├── <split>/ │ └── <project_name>/ │ └── <timestamp>-<shard>.parquet ``` The HuggingFace Hub automatically merges all parquet files when loading the dataset. ## Usage ```python from datasets import load_dataset # Load entire dataset dataset = load_dataset("dh-unibe/image-text_rats-und-richtebuecher_xv-xvi") # Load specific split train_dataset = load_dataset("dh-unibe/image-text_rats-und-richtebuecher_xv-xvi", split="train") ```
提供机构:
dh-unibe
搜集汇总
数据集介绍
main_image_url
构建方式
在历史文献数字化领域,该数据集源自瑞士苏黎世州立档案馆所藏的15至16世纪议会与司法记录手稿。构建过程依托Transkribus平台,将原始手稿图像及其对应的PageXML标注数据,通过pagexml-hf转换工具系统化处理,形成包含9885个样本的结构化集合。数据以分片Parquet格式组织,确保了大规模图像与文本对应关系的高效存储与访问。
特点
该数据集涵盖了1400年至1550年间瑞士地区的中古高地德语与早期现代德语手稿,专攻议会协议类文献,具有明确的历史地理与语言范畴。其核心特征在于图像与XML内容的精确配对,每幅手稿图像均附有详细的PageXML转录文本,支持手写文本识别与跨模态研究。数据集规模适中,结构清晰,为历史语言学与数字人文提供了高质量的标注资源。
使用方法
利用HuggingFace的datasets库,研究者可便捷加载整个数据集或特定训练分割。通过调用load_dataset函数并指定相应路径,即可访问图像、XML内容、文件名及项目名称等特征。该数据集适用于训练手写文本识别模型如TrOCR,或用于历史文档的转录与分析任务,为跨学科研究提供即用的数据基础。
背景与挑战
背景概述
在数字人文与历史计算语言学领域,手稿文献的数字化与文本转录是推动历史研究的关键环节。image-text_rats-und-richtebuecher_xv-xvi数据集由瑞士苏黎世州立档案馆与相关研究机构合作构建,其核心研究问题聚焦于15至16世纪瑞士地区的中古高地德语与早期现代德语议会记录文献的自动化转录与语义分析。该数据集通过Transkribus平台提取PageXML格式的图文对齐数据,为手写文本识别(HTR)与光学字符识别(OCR)模型提供了珍贵的训练资源,显著促进了历史文献的数字化保存与跨学科研究。
当前挑战
该数据集旨在解决历史手写文档图像到文本的转录问题,其核心挑战在于中古德语变体的语言复杂性、手写笔迹的多样性与文献保存状态导致的图像质量不均。构建过程中,研究人员面临原始文献破损、墨水褪色及版面布局不规则等技术障碍,同时需确保PageXML标注的准确性与一致性,这对自动化转录模型的泛化能力提出了较高要求。
常用场景
经典使用场景
在历史文献数字化与手写文本识别领域,该数据集为研究15至16世纪瑞士苏黎世州议会议事录提供了宝贵的图像与文本对应资源。其经典使用场景集中于训练和评估手写文本识别模型,特别是针对中古高地德语和早期现代德语的古文书转录任务。通过结合图像与PageXML标注内容,研究者能够开发先进的OCR或HTR系统,以自动化方式解析历史手稿的复杂版面结构和文字内容,从而高效处理大量尘封的档案材料。
解决学术问题
该数据集有效解决了历史语言学与数字人文研究中长期存在的难题,即如何对早期印刷或手写文献进行准确、大规模的文本数字化。它为中古德语变体的文字识别提供了标注良好的训练数据,有助于克服古字体、墨水褪色及页面损坏带来的识别挑战。其意义在于推动了跨学科研究,使学者能够利用计算工具分析历史文本的语言演变、社会制度及法律实践,为欧洲中世纪晚期至近代早期的社会史研究开辟了新的量化途径。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在基于Transformer的端到端手写文本识别模型,如TrOCR的优化与适配。这些工作探索了如何利用预训练视觉-语言模型处理历史德语文档,并改进对古老字体的泛化能力。此外,一些研究专注于PageXML的结构化解析,开发了从图像中提取文本行、段落及元信息的管道,为更复杂的文档分析任务,如实体识别或年代分类,奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作