rawxml-test-cli

Hugging Face2026-04-09 更新2026-04-10 收录

下载链接：

https://huggingface.co/datasets/jwidmer/rawxml-test-cli

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为 'rawxml-test-cli'，是通过 pagexml-hf 转换器从 Transkribus PageXML 数据生成的。数据集包含 492 个样本，全部位于训练集（train）中，总大小约为 30.39 MB。数据特征包括图像、文本、行和区域的坐标、阅读顺序以及其他元数据。具体字段包括：image（图像）、text（文本）、line_id（行标识）、line_reading_order（行阅读顺序）、line_coords（行坐标）、line_baseline（行基线）、line_augmentation（行增强）、region_id（区域标识）、region_reading_order（区域阅读顺序）、region_type（区域类型）、region_coords（区域坐标）、filename（文件名）和 project_name（项目名称）。数据以 parquet 文件格式组织，适用于图像到文本转换、手写文本识别（HTR）和转录等任务。数据集使用 MIT 许可证。

This dataset is named 'rawxml-test-cli', and is generated from Transkribus PageXML data via the pagexml-hf converter. It contains 492 samples, all located in the training split (train), with a total size of approximately 30.39 MB. The dataset features include coordinates of images, text, lines and regions, reading order, and other metadata. The specific fields are as follows: image, text, line_id, line_reading_order, line_coords, line_baseline, line_augmentation, region_id, region_reading_order, region_type, region_coords, filename, and project_name. The data is organized in Parquet file format, and is suitable for tasks such as image-to-text conversion, Handwritten Text Recognition (HTR) and transcription. This dataset is released under the MIT License.

创建时间：

2026-03-27

原始信息汇总

数据集概述：rawxml-test-cli

数据集来源与用途

该数据集使用 pagexml-hf 转换器从 Transkribus PageXML 数据创建。
主要用途涉及图像到文本、手写文本识别、转录等领域。

数据集基本信息

许可证：MIT
标签：image-to-text, htr, trocr, transcription, pagexml

数据集规模与结构

总样本数：492
数据分割：仅包含一个分割（train），样本数为492。
数据集大小：
- 下载大小：31,862,904 字节
- 数据集大小：31,862,904 字节
- 近似总大小：30.39 MB
增强数量：2

数据特征

数据集包含以下特征字段：

image：图像数据（不自动解码）
text：文本字符串
line_id：行标识符（字符串）
line_reading_order：行阅读顺序（64位整数）
line_coords：行坐标序列（嵌套的64位整数序列）
line_baseline：行基线坐标序列（嵌套的64位整数序列）
line_augmentation：行增强信息（字符串）
region_id：区域标识符（字符串）
region_reading_order：区域阅读顺序（64位整数）
region_type：区域类型（字符串）
region_coords：区域坐标序列（嵌套的64位整数序列）
filename：文件名（字符串）
project_name：项目名称（字符串）

数据组织与格式

存储格式：数据以 Parquet 文件分片形式组织。
目录结构：

data/ ├── <split>/ │ └── <project_name>/ │ └── <timestamp>-<shard>.parquet
加载方式：HuggingFace Hub 在加载数据集时会自动合并所有 Parquet 文件。

使用方式

python from datasets import load_dataset

加载整个数据集

dataset = load_dataset("jwidmer/rawxml-test-cli")

加载特定分割

train_dataset = load_dataset("jwidmer/rawxml-test-cli", split="train")

包含的项目

1505-02-10_Hanserezess,Lübeck_Dienstag_nach_Scholastice_1505(SAHST_Rep__2,_I_040-4)

搜集汇总

数据集介绍

构建方式

在数字人文与文档分析领域，rawxml-test-cli数据集通过Transkribus平台中的PageXML格式数据转换而来，运用pagexml-hf转换工具将原始文档图像及其结构化标注信息系统化整合。构建过程聚焦于从历史手稿中提取文本行与区域级别的几何坐标、阅读顺序及类型标注，确保了数据在空间与语义维度上的精确对齐。该数据集以Parquet分片形式组织，按项目与分割自动合并，为手写文本识别任务提供了结构清晰、可直接用于机器学习模型训练的基础资源。

特点

该数据集的核心特点体现在其多层次标注体系上，不仅包含图像与转录文本的对应关系，还细致标注了文本行与区域的坐标、基线信息及阅读顺序，支持对文档布局的深入分析。数据集中涵盖492个样本，均源自特定历史项目，如1505年吕贝克的手稿记录，具有明确的时空背景与学术价值。此外，数据通过增强处理生成变体，增强了模型训练的鲁棒性，而统一的Parquet格式与HuggingFace平台的集成，使得数据加载与处理流程极为高效便捷。

使用方法

使用该数据集时，研究人员可通过HuggingFace的datasets库直接加载，利用load_dataset函数指定数据集名称即可获取完整或特定分割的数据。数据以图像到文本的配对形式呈现，适用于手写文本识别、光学字符识别及文档布局分析等任务。用户可依据line_coords、region_type等特征进行空间查询或语义过滤，结合Transkribus的标注标准，能够开展跨时代手写体的模型训练与评估，推动数字档案的智能化处理进程。

背景与挑战

背景概述

在数字人文与文档分析领域，历史手稿的自动转录一直是一项核心研究课题。rawxml-test-cli数据集由研究人员或机构通过Transkribus PageXML转换工具构建，专注于手写文本识别任务。该数据集旨在为基于图像到文本的模型提供结构化标注数据，其设计反映了对历史文档中文本行与区域进行精确几何与语义建模的需求。通过整合图像、文本内容及丰富的布局信息，该数据集为训练与评估如TrOCR等先进转录模型提供了关键资源，推动了文化遗产数字化与智能文档处理技术的发展。

当前挑战

该数据集致力于解决手写文本识别领域的核心挑战，即从复杂历史文档图像中准确提取并转录文本，同时保留其原始布局结构。构建过程中的主要困难包括：如何从原始的PageXML格式中高效、无损地转换并标准化多样化的标注信息，确保几何坐标、阅读顺序等元数据的完整性与一致性；以及如何在有限样本量下，通过数据增强策略来提升模型的泛化能力，以应对历史手稿中常见的字体变异、墨迹退化及版面噪声等问题。

常用场景

经典使用场景

在文档分析与手写文本识别领域，rawxml-test-cli数据集为研究者提供了珍贵的实验素材。该数据集源自Transkribus平台，通过PageXML格式转换而来，其核心应用场景在于训练和评估手写文本识别模型。数据集中的图像与文本标注信息精确对应，特别是行级坐标、阅读顺序和基线坐标等结构化特征，使得模型能够学习从复杂历史文档图像中提取并转录文字内容。这一过程不仅涉及图像到文本的转换，还要求模型理解文档的布局结构，为手写识别技术的进步奠定了数据基础。

实际应用

在实际应用层面，rawxml-test-cli数据集主要服务于文化遗产的数字化保存与利用。档案馆、图书馆及研究机构可利用基于此数据集训练的模型，对大量历史手稿、档案文献进行自动化转录，从而将难以直接检索的视觉信息转化为可搜索、可分析的文本数据。这不仅极大地提升了历史文献的访问性和研究效率，也为构建大型数字文本库、开展历史语言学或社会史定量分析提供了可能。其应用直接促进了人文科学与计算技术的交叉融合。

衍生相关工作

围绕rawxml-test-cli这类手写文本识别数据集，学术界已衍生出诸多经典研究工作。例如，基于Transformer架构的TrOCR模型便是该领域的重要代表，它充分利用了图像-文本对数据进行预训练与微调。此外，许多研究专注于改进文档布局分析算法，利用数据集中提供的区域和行级坐标信息，开发能够同时完成文本检测、识别和结构理解的统一模型。这些工作不仅提升了识别精度，也推动了多模态学习在复杂文档处理中的应用范式，形成了从数据到方法的良性循环。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集