PleIAs/Post-OCR-Correction

Name: PleIAs/Post-OCR-Correction
Creator: PleIAs
Published: 2025-07-07 15:25:30
License: 暂无描述

Hugging Face2025-07-07 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/PleIAs/Post-OCR-Correction

下载链接

链接失效反馈

官方服务：

资源简介：

Post-OCR correction是一个包含10亿单词的大型语料库，包含带有不同数量OCR错误的原始文本以及由Pleias创建的多语言后OCR校正输出。所有文本均来自集成到Common Corpus中的收藏，Common Corpus是Pleias之前在HuggingFace上发布的最大的开放预训练语料库。语料库包括法语、英语、德语和意大利语的文化遗产文本，具体分布如下：法语：来自Gallica的报纸文本，438,034,960字；英语：来自Chronicling America的报纸文本，300,522,681字；意大利语：来自各种来源的专著文本，144,441,539字；德语：来自各种来源的专著文本，97,396,147字。OCR质量是Common Corpus在训练AI模型和文化分析研究中的主要限制，后OCR校正显著提高了资源的质量。数据集的使用包括辅助手动校正、分类任务和去重任务。

提供机构：

PleIAs

原始信息汇总

数据集概述

数据集名称

Post-OCR correction

数据集内容

文本类型：包含原始文本及多语言的OCR错误修正输出。
语言：法语、英语、意大利语、德语。
文本来源：来自Common Corpus，包括报纸和专著文本。
- 法语：来自Gallica的报纸文本，共438,034,960字。
- 英语：来自Chronicling America的报纸文本，共300,522,681字。
- 意大利语：来自Internet Archive等来源的专著文本，共144,441,539字。
- 德语：来自Internet Archive等来源的专著文本，共97,396,147字。

数据集配置

配置名称：french, english, italian, german
数据文件：
- french：gallica_*.parquet
- english：nbu_.parquet, ny_.parquet
- italian：italian_*.parquet
- german：german_*.parquet

数据集用途

评估OCR修正质量：用于评估和改进OCR修正过程。
支持文本处理任务：提高文本识别准确性，适用于分类、去重等任务。

许可证

cc0-1.0

搜集汇总

数据集介绍

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集