PleIAs/Post-OCR-Correction
收藏Hugging Face2025-07-07 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/Post-OCR-Correction
下载链接
链接失效反馈官方服务:
资源简介:
Post-OCR correction是一个包含10亿单词的大型语料库,包含带有不同数量OCR错误的原始文本以及由Pleias创建的多语言后OCR校正输出。所有文本均来自集成到Common Corpus中的收藏,Common Corpus是Pleias之前在HuggingFace上发布的最大的开放预训练语料库。语料库包括法语、英语、德语和意大利语的文化遗产文本,具体分布如下:法语:来自Gallica的报纸文本,438,034,960字;英语:来自Chronicling America的报纸文本,300,522,681字;意大利语:来自各种来源的专著文本,144,441,539字;德语:来自各种来源的专著文本,97,396,147字。OCR质量是Common Corpus在训练AI模型和文化分析研究中的主要限制,后OCR校正显著提高了资源的质量。数据集的使用包括辅助手动校正、分类任务和去重任务。
提供机构:
PleIAs
原始信息汇总
数据集概述
数据集名称
Post-OCR correction
数据集内容
- 文本类型:包含原始文本及多语言的OCR错误修正输出。
- 语言:法语、英语、意大利语、德语。
- 文本来源:来自Common Corpus,包括报纸和专著文本。
- 法语:来自Gallica的报纸文本,共438,034,960字。
- 英语:来自Chronicling America的报纸文本,共300,522,681字。
- 意大利语:来自Internet Archive等来源的专著文本,共144,441,539字。
- 德语:来自Internet Archive等来源的专著文本,共97,396,147字。
数据集配置
- 配置名称:french, english, italian, german
- 数据文件:
- french:gallica_*.parquet
- english:nbu_.parquet, ny_.parquet
- italian:italian_*.parquet
- german:german_*.parquet
数据集用途
- 评估OCR修正质量:用于评估和改进OCR修正过程。
- 支持文本处理任务:提高文本识别准确性,适用于分类、去重等任务。
许可证
cc0-1.0
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



