rawxl-test-overwrite
收藏Hugging Face2025-12-10 更新2025-12-11 收录
下载链接:
https://huggingface.co/datasets/jwidmer/rawxl-test-overwrite
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为'rawxl-test-overwrite',是通过Transkribus PageXML数据转换工具创建的。数据集包含29个样本,分为训练集(27个样本)和测试集(2个样本)。每个样本包含图像、XML内容、文件名和项目名称等特征。数据以parquet格式存储,并按项目和分割组织。数据集的主要用途是图像到文本的转换,特别是手写文本识别(HTR)和转录任务。
创建时间:
2025-12-09
原始信息汇总
数据集概述
基本信息
- 数据集名称: rawxl-test-overwrite
- 创建方式: 使用 pagexml-hf 转换器从 Transkribus PageXML 数据创建。
- 许可证: MIT
- 标签: image-to-text, htr, trocr, transcription, pagexml
数据集内容
- 总样本数: 29
- 数据分割:
- 训练集 (train): 27 个样本
- 测试集 (test): 2 个样本
- 包含项目:
- 1611-02-25_Rezess_(HAStK-RBA_Best__82_A_51)
- B_IX_490_duplicated
数据结构与特征
-
特征字段:
image: 图像数据 (Image类型,解码关闭)xml_content: 字符串类型filename: 字符串类型project_name: 字符串类型
-
数据格式: Parquet 文件
-
数据组织:
data/ ├── <split>/ │ └── <project_name>/ │ └── <timestamp>-<shard>.parquet
-
加载方式: HuggingFace Hub 在加载时会自动合并所有 Parquet 文件。
技术详情
- 下载大小: 824,015,744 字节
- 数据集大小: 824,015,744 字节
- 训练集大小: 412,007,872 字节 (27 个样本)
- 测试集大小: 412,007,872 字节 (2 个样本)
使用示例
python from datasets import load_dataset
加载整个数据集
dataset = load_dataset("jwidmer/rawxl-test-overwrite")
加载特定分割
train_dataset = load_dataset("jwidmer/rawxl-test-overwrite", split="train")
搜集汇总
数据集介绍

构建方式
在历史文档数字化处理领域,rawxl-test-overwrite数据集通过pagexml-hf转换工具从Transkribus平台的PageXML格式数据中精心构建而成。该数据集以Parquet分片形式组织,依据训练集与测试集的分割以及具体项目名称进行层级归档,确保了数据存储的高效性与结构性。其构建过程涵盖了从原始PageXML标注到标准化图像与文本配对的转换,为手写文本识别任务提供了可直接用于模型训练的规范化资源。
特点
该数据集聚焦于手写文档转录与历史档案分析,其核心特征在于同时包含图像与对应的XML结构化内容。每个样本均由文档图像、XML标注文本、文件名及所属项目名称四个字段构成,其中XML内容保留了详细的版面分析与文本层次信息。数据集规模虽小,仅含29个样本,却以约785.84MB的容量承载了高分辨率图像与丰富标注,适用于对数据质量要求较高的细粒度手写文本识别模型训练与评估。
使用方法
利用Hugging Face的datasets库,研究者可便捷地加载此数据集以支持手写文本识别相关实验。通过调用load_dataset函数并指定数据集路径,即可完整载入或按需选取训练集或测试集分割。数据以Parquet格式存储,Hub平台会自动合并分片文件,用户可直接获取结构化的图像-文本对,进而用于训练如TrOCR等端到端转录模型,或进行历史文档的版面分析与内容提取研究。
背景与挑战
背景概述
在文档分析与数字人文研究领域,历史手稿的自动转录与结构化处理一直是核心难题。rawxl-test-overwrite数据集由研究者jwidmer于近期创建,其依托Transkribus平台生成的PageXML数据,通过pagexml-hf转换工具构建而成。该数据集聚焦于图像到文本的转换任务,特别是手写文本识别与光学字符识别场景,旨在为基于Transformer的模型如TrOCR提供训练与评估资源。数据集涵盖了两个具体历史项目的手稿样本,虽然规模有限,但其结构化特征为探索复杂文档布局与内容提取的跨模态学习提供了基础。
当前挑战
该数据集致力于解决历史文档图像中手写文本的端到端转录问题,其核心挑战在于处理多样化的手写风格、褪色或破损的原始材料以及复杂页面布局的解析。在构建过程中,数据整合面临显著困难:原始PageXML数据需转换为标准化格式,同时保持图像与标注间的精确对齐;数据规模较小且样本分布不均衡,可能限制模型的泛化能力;此外,跨项目的数据一致性维护与质量验证也需精细处理,以确保标注的准确性与完整性。
常用场景
经典使用场景
在文档图像分析与手写文本识别领域,rawxl-test-overwrite数据集为研究者提供了图像与XML结构化文本的配对样本,其经典使用场景聚焦于训练和评估端到端的光学字符识别模型。通过结合图像数据和对应的PageXML标注,该数据集支持模型学习从复杂历史文档图像中提取并转录文本内容,尤其适用于处理手写体或印刷体文档的数字化转录任务,为文化遗产保护与数字化存档提供了关键数据支撑。
解决学术问题
该数据集有效解决了文档图像识别中标注数据稀缺、格式不统一等常见学术问题。通过提供标准化的PageXML标注格式,它促进了手写文本识别模型在跨项目、跨文档类型上的泛化能力研究,并支持对转录准确性和布局分析的量化评估。其意义在于为历史文档的自动化处理建立了可重复的实验基准,推动了HTR领域在数据预处理、模型训练及评估方法上的标准化进程。
衍生相关工作
围绕该数据集衍生的经典工作主要包括基于Transformer的OCR模型(如TrOCR)的优化与适配研究。研究者利用其图像-XML配对数据,开发了针对历史文档布局分析的端到端识别框架,并在文档结构解析、多语言手写体识别等任务上取得了进展。这些工作进一步拓展了HTR技术在复杂文档场景下的应用边界,并为相关开源工具链的完善提供了实践基础。
以上内容由遇见数据集搜集并总结生成



