unlabeled dataset

Name: unlabeled dataset
Creator: 布拉格工业大学信息工程学院
Published: 2025-03-28 23:16:48
License: 暂无描述

arXiv2025-03-28 更新2025-04-07 收录

下载链接：

https://www.archives.cz/ 和 https://pero-ocr.fit.vutbr.cz/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由布拉格工业大学信息工程学院提供，包含从3千份历史文献中检测出的5千万行文本，这些文献主要是19世纪末至今的捷克语和德语手写页面，包括编年史、教区记录、土地登记等。数据集通过现有的VGG-like模型处理文本行，使用K-Means聚类方法生成离散标签，用于预训练编码器。

This dataset is provided by the Faculty of Information Engineering, Czech Technical University in Prague. It contains 50 million lines of text detected from 3,000 historical documents, which are mainly handwritten pages in Czech and German dating from the late 19th century to the present, including chronicles, parish records, land registers, and more. The dataset processes text lines using an existing VGG-like model, and generates discrete labels via K-Means clustering for encoder pre-training.

提供机构：

布拉格工业大学信息工程学院

创建时间：

2025-03-28

搜集汇总

数据集介绍

构建方式

该数据集构建于大规模无标注文本行数据之上，通过自监督学习框架进行预训练。具体采用掩码标签预测技术，利用K-Means聚类对视觉特征进行离散化处理，生成自监督训练目标。数据源包含来自历史档案的408k页文档和OCR网络应用的247k页文档，总计50M文本行，涵盖19世纪末至今的捷克语和德语手写及印刷体文本。预处理阶段采用基于ParseNet的文本行检测网络确保数据一致性。

使用方法

该数据集专为文本识别Transformer模型的预训练设计。使用时分三个阶段：首先用K-Means对视觉特征聚类生成伪标签；随后采用渐进掩码策略训练编码器预测掩码区域标签；最终将预训练编码器接入编解码架构进行下游任务的微调。实验表明，该方法在Bentham、Bullinger等标准测试集上相对基线模型最高降低30%字符错误率，且不依赖额外标注数据即可达到迁移学习效果。预训练模型支持不同规模的编解码器组合，适配从9k到1M标注数据的微调场景。

背景与挑战

背景概述

该无标签数据集由捷克布尔诺理工大学的研究团队于2025年构建，旨在探索掩码自监督预训练在文本识别Transformer模型中的应用。研究团队通过50M无标签文本行数据，结合渐进式掩码概率调整和混合损失函数设计，有效提升了手写文本识别（HTR）任务的性能。该工作突破了传统OCR依赖大规模标注数据的限制，在Bentham、Bullinger等历史文献数据集上实现了最高30%的相对错误率降低，为古籍数字化等低资源场景提供了创新解决方案。其提出的特征量化与K-Means聚类标签生成方法，为自监督学习在文档分析领域的应用开辟了新路径。

当前挑战

构建过程中面临两大核心挑战：在领域问题层面，需解决历史文档因墨水褪色、纸张破损导致的低质量图像识别难题，以及多语言混合文本（如拉丁语、德语）的跨语言建模问题；在技术实现层面，处理50M规模无标签数据时遭遇计算效率瓶颈，需设计高效的K-Means聚类算法进行特征离散化。此外，渐进式掩码策略的调参复杂度与Transformer模型在长序列处理中的内存消耗，也对系统架构设计提出了严峻考验。

常用场景

经典使用场景

在文本识别领域，大规模无标签数据集（unlabeled dataset）常被用于自监督预训练阶段，以解决标注数据稀缺的瓶颈问题。该数据集通过掩码自编码等策略，使模型从无标注文本行中学习鲁棒的特征表示，为下游OCR任务奠定基础。例如论文采用50M无标签文本行进行预训练，通过K-Means聚类生成伪标签，再以渐进式掩码概率优化Transformer编码器的上下文建模能力。

解决学术问题

该数据集有效缓解了文本识别领域标注成本高昂的学术难题，特别是在历史手写文档等低资源场景中。通过自监督预训练框架，模型能够从未标注数据中捕捉字符形态、笔画结构等通用特征，在Bentham、Bullinger等测试集上相对降低30%的字符错误率。其核心价值在于证明了无监督表征学习可以媲美传统迁移学习效果，为资源受限场景提供了新范式。

实际应用

在实际应用中，该数据集支撑的预训练模型显著提升了历史档案数字化效率。例如对19世纪捷克-德语混合手写文献的识别任务，模型通过预训练获得的字形先验知识，能够准确处理褪色、污损等复杂退化情况。档案馆可利用该技术批量处理土地登记簿、教区记录等珍贵文献，避免人工转录的耗时问题。

数据集最近研究