dh-unibe/image-text_rats-und-richtebuecher_xv-xvi
收藏Hugging Face2026-04-09 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/dh-unibe/image-text_rats-und-richtebuecher_xv-xvi
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
config_name: default
features:
- name: image
dtype:
image:
decode: false
- name: xml_content
dtype: string
- name: filename
dtype: string
- name: project_name
dtype: string
splits:
- name: train
num_examples: 9885
num_bytes: 70729250850
download_size: 70729250850
dataset_size: 70729250850
configs:
- config_name: default
data_files:
- split: train
path: data/train/**/*.parquet
tags:
- image-to-text
- htr
- trocr
- transcription
- pagexml
license: mit
---
# Dataset Card for image-text_rats-und-richtebuecher_xv-xvi
This dataset was created using pagexml-hf converter from Transkribus PageXML data.
## Dataset Summary
This dataset contains 9885 samples across 1 split(s).
Geographical scope: Switzerland<br>Period: 1400-1550<br>Languages: Middle High German, Early Modern German<br>Type of document: Protocols<br>Provenance: State Archive of Zurich
### Projects Included
- Rats-undRichtebücher_MF_1_3543
- Rats-undRichtebücher_MF_1_3544
- Rats-undRichtebücher_MF_1_3545
- Rats-undRichtebücher_MF_1_3546
- Rats-undRichtebücher_MF_1_3547
- Rats-undRichtebücher_MF_1_3548
- Rats-undRichtebücher_MF_1_3549
- Rats-undRichtebücher_MF_1_3550
- Rats-undRichtebücher_MF_1_3551
- Rats-undRichtebücher_MF_1_3552
- Rats-undRichtebücher_MF_1_3553
- Rats-undRichtebücher_MF_1_3554
- Rats-undRichtebücher_MF_1_3555
- Rats-undRichtebücher_MF_1_3556
- Rats-undRichtebücher_MF_1_3557
- Rats-undRichtebücher_MF_1_3558
- Rats-undRichtebücher_MF_1_3559
- Rats-undRichtebücher_MF_1_3560
- Rats-undRichtebücher_MF_1_3561
- Rats-undRichtebücher_MF_1_3562
- Rats-undRichtebücher_MF_1_3563
- Rats-undRichtebücher_MF_1_3564
- Rats-undRichtebücher_MF_1_3565
- Rats-undRichtebücher_MF_1_3566
- Rats-undRichtebücher_MF_1_3567
- Rats-undRichtebücher_MF_1_3568
- Rats-undRichtebücher_MF_1_3569
- Rats-undRichtebücher_MF_1_3570
- Rats-undRichtebücher_MF_1_3571
- Rats-undRichtebücher_MF_1_3572
- Rats-undRichtebücher_MF_1_3573
- Rats-undRichtebücher_MF_1_3574
- Rats-undRichtebücher_MF_1_3575
- TRAINING_VALIDATION_SET_Richtebuecher_M1
- Test_MF_1_3556_p_204
- escript_test
- escript_test_2
## Dataset Structure
### Data Splits
- **train**: 9885 samples
### Dataset Size
- Approximate total size: 67452.67 MB
- Total samples: 9885
### Features
- **image**: `Image(mode=None, decode=False)`
- **xml_content**: `Value('string')`
- **filename**: `Value('string')`
- **project_name**: `Value('string')`
## Data Organization
Data is organized as parquet shards by split and project:
```
data/
├── <split>/
│ └── <project_name>/
│ └── <timestamp>-<shard>.parquet
```
The HuggingFace Hub automatically merges all parquet files when loading the dataset.
## Usage
```python
from datasets import load_dataset
# Load entire dataset
dataset = load_dataset("dh-unibe/image-text_rats-und-richtebuecher_xv-xvi")
# Load specific split
train_dataset = load_dataset("dh-unibe/image-text_rats-und-richtebuecher_xv-xvi", split="train")
```
提供机构:
dh-unibe
搜集汇总
数据集介绍

构建方式
在历史文献数字化领域,该数据集源自瑞士苏黎世州立档案馆所藏的15至16世纪议会与司法记录手稿。构建过程依托Transkribus平台,将原始手稿图像及其对应的PageXML标注数据,通过pagexml-hf转换工具系统化处理,形成包含9885个样本的结构化集合。数据以分片Parquet格式组织,确保了大规模图像与文本对应关系的高效存储与访问。
特点
该数据集涵盖了1400年至1550年间瑞士地区的中古高地德语与早期现代德语手稿,专攻议会协议类文献,具有明确的历史地理与语言范畴。其核心特征在于图像与XML内容的精确配对,每幅手稿图像均附有详细的PageXML转录文本,支持手写文本识别与跨模态研究。数据集规模适中,结构清晰,为历史语言学与数字人文提供了高质量的标注资源。
使用方法
利用HuggingFace的datasets库,研究者可便捷加载整个数据集或特定训练分割。通过调用load_dataset函数并指定相应路径,即可访问图像、XML内容、文件名及项目名称等特征。该数据集适用于训练手写文本识别模型如TrOCR,或用于历史文档的转录与分析任务,为跨学科研究提供即用的数据基础。
背景与挑战
背景概述
在数字人文与历史计算语言学领域,手稿文献的数字化与文本转录是推动历史研究的关键环节。image-text_rats-und-richtebuecher_xv-xvi数据集由瑞士苏黎世州立档案馆与相关研究机构合作构建,其核心研究问题聚焦于15至16世纪瑞士地区的中古高地德语与早期现代德语议会记录文献的自动化转录与语义分析。该数据集通过Transkribus平台提取PageXML格式的图文对齐数据,为手写文本识别(HTR)与光学字符识别(OCR)模型提供了珍贵的训练资源,显著促进了历史文献的数字化保存与跨学科研究。
当前挑战
该数据集旨在解决历史手写文档图像到文本的转录问题,其核心挑战在于中古德语变体的语言复杂性、手写笔迹的多样性与文献保存状态导致的图像质量不均。构建过程中,研究人员面临原始文献破损、墨水褪色及版面布局不规则等技术障碍,同时需确保PageXML标注的准确性与一致性,这对自动化转录模型的泛化能力提出了较高要求。
常用场景
经典使用场景
在历史文献数字化与手写文本识别领域,该数据集为研究15至16世纪瑞士苏黎世州议会议事录提供了宝贵的图像与文本对应资源。其经典使用场景集中于训练和评估手写文本识别模型,特别是针对中古高地德语和早期现代德语的古文书转录任务。通过结合图像与PageXML标注内容,研究者能够开发先进的OCR或HTR系统,以自动化方式解析历史手稿的复杂版面结构和文字内容,从而高效处理大量尘封的档案材料。
解决学术问题
该数据集有效解决了历史语言学与数字人文研究中长期存在的难题,即如何对早期印刷或手写文献进行准确、大规模的文本数字化。它为中古德语变体的文字识别提供了标注良好的训练数据,有助于克服古字体、墨水褪色及页面损坏带来的识别挑战。其意义在于推动了跨学科研究,使学者能够利用计算工具分析历史文本的语言演变、社会制度及法律实践,为欧洲中世纪晚期至近代早期的社会史研究开辟了新的量化途径。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在基于Transformer的端到端手写文本识别模型,如TrOCR的优化与适配。这些工作探索了如何利用预训练视觉-语言模型处理历史德语文档,并改进对古老字体的泛化能力。此外,一些研究专注于PageXML的结构化解析,开发了从图像中提取文本行、段落及元信息的管道,为更复杂的文档分析任务,如实体识别或年代分类,奠定了数据基础。
以上内容由遇见数据集搜集并总结生成



