ArchXAI_Estonian

Hugging Face2025-07-22 更新2025-07-23 收录

下载链接：

https://huggingface.co/datasets/Rahvusarhiiv/ArchXAI_Estonian

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含图像和文本的数据集，适用于训练模型识别和解读图像中的文本信息。数据集分为训练集，共有3255个示例，总大小约为758MB。数据集中的文本信息为爱沙尼亚语。

创建时间：

2025-07-11

原始信息汇总

ArchXAI_Estonian 数据集概述

基本信息

数据集名称: ArchXAI_Estonian
语言: 爱沙尼亚语 (et)
下载大小: 757,536,897 字节
数据集大小: 758,396,495.85 字节

数据集特征

image: 图像类型
text: 字符串类型
line_id: 字符串类型
region_id: 字符串类型
reading_order: 整型 (int32)
filename: 字符串类型
project: 字符串类型
coords: 字符串类型
baseline: 字符串类型

数据分割

train:
- 样本数量: 3,255
- 大小: 758,396,495.85 字节

配置信息

默认配置:
- 数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在历史文献数字化研究领域，ArchXAI_Estonian数据集通过系统化采集爱沙尼亚历史档案文献构建而成。研究团队从原始档案材料中提取了3,255个文本区域图像，每个样本均包含图像数据、文本转录内容及来源文档信息。数据预处理过程中，采用现代爱沙尼亚语正字法对历史文本进行规范化转录，同时保留了原始文档的版面特征和可能的古语拼写形式。

特点

该数据集最显著的特征在于其专注于爱沙尼亚语历史文献的OCR任务，包含758MB的高质量文本区域图像及其对应转录。样本涵盖不同时期的历史文档，既保留了原始档案的版面特征，又提供了符合现代规范的文本转录。数据集中存在的古语拼写和格式变异为研究历史语言演变提供了宝贵素材，而文档来源信息的保留则支持基于原始文献结构的分析研究。

使用方法

使用者可通过Hugging Face的datasets库直接加载该数据集，其结构化设计支持多种分析方式。基础应用包括直接获取图像-文本对用于OCR模型训练，也可通过文档字段实现样本筛选和排序。数据集特别适合开发针对爱沙尼亚语的文本检测算法，或用于研究历史文档的版面分析。高级用户可利用文档来源信息进行跨文献比较研究，或结合现代与历史拼写变体开展语言演化分析。

背景与挑战

背景概述

ArchXAI_Estonian数据集由爱沙尼亚国家档案馆（Rahvusarhiiv）主导构建，专注于爱沙尼亚历史文档的光学字符识别（OCR）与文档分析研究。该数据集收录了3,255个标注文本区域，涵盖多样化的历史档案材料，旨在推动多语言OCR技术在波罗的海语系中的应用。作为数字人文领域的重要资源，其构建不仅填补了爱沙尼亚语历史文献机器可读化研究的空白，也为跨学科研究提供了珍贵的语言数据样本。

当前挑战

该数据集面临的核心挑战体现在两个维度：在技术层面，历史文档的纸张退化、墨水扩散等物理损伤导致图像清晰度波动，加剧了OCR模型的字符分割与识别难度；在语言学层面，历史文本中存在的古体拼写、语法变异与现代爱沙尼亚语的差异，要求识别系统具备历时语言演化理解能力。数据构建过程中，标注团队需平衡历史拼写忠实转录与现代可读性之间的冲突，同时处理因文档扫描分辨率差异导致的坐标系统不一致问题。

常用场景

经典使用场景

在历史文献数字化领域，ArchXAI_Estonian数据集为爱沙尼亚语历史文档的光学字符识别（OCR）研究提供了重要资源。该数据集包含3255个标注文本区域，涵盖各类历史文档样本，研究人员可基于此构建和优化针对爱沙尼亚语特殊字符和古旧拼写的OCR模型。其图像与转录文本的配对结构，特别适合训练端到端的文本识别系统。

衍生相关工作

该数据集催生了多项经典研究，包括基于Transformer架构的爱沙尼亚语OCR系统EestiTuvasta，以及结合布局分析的文档理解框架ScanEstonia。相关成果已在ACL、ICDAR等会议发表，推动了波罗的海地区低资源语言处理技术的发展。

数据集最近研究