five

PleIAs/Post-OCR-Correction

收藏
Hugging Face2025-07-07 更新2024-05-25 收录
下载链接:
https://hf-mirror.com/datasets/PleIAs/Post-OCR-Correction
下载链接
链接失效反馈
官方服务:
资源简介:
Post-OCR correction是一个包含10亿单词的大型语料库,包含带有不同数量OCR错误的原始文本以及由Pleias创建的多语言后OCR校正输出。所有文本均来自集成到Common Corpus中的收藏,Common Corpus是Pleias之前在HuggingFace上发布的最大的开放预训练语料库。语料库包括法语、英语、德语和意大利语的文化遗产文本,具体分布如下:法语:来自Gallica的报纸文本,438,034,960字;英语:来自Chronicling America的报纸文本,300,522,681字;意大利语:来自各种来源的专著文本,144,441,539字;德语:来自各种来源的专著文本,97,396,147字。OCR质量是Common Corpus在训练AI模型和文化分析研究中的主要限制,后OCR校正显著提高了资源的质量。数据集的使用包括辅助手动校正、分类任务和去重任务。
提供机构:
PleIAs
原始信息汇总

数据集概述

数据集名称

Post-OCR correction

数据集内容

  • 文本类型:包含原始文本及多语言的OCR错误修正输出。
  • 语言:法语、英语、意大利语、德语。
  • 文本来源:来自Common Corpus,包括报纸和专著文本。
    • 法语:来自Gallica的报纸文本,共438,034,960字。
    • 英语:来自Chronicling America的报纸文本,共300,522,681字。
    • 意大利语:来自Internet Archive等来源的专著文本,共144,441,539字。
    • 德语:来自Internet Archive等来源的专著文本,共97,396,147字。

数据集配置

  • 配置名称:french, english, italian, german
  • 数据文件
    • french:gallica_*.parquet
    • english:nbu_.parquet, ny_.parquet
    • italian:italian_*.parquet
    • german:german_*.parquet

数据集用途

  • 评估OCR修正质量:用于评估和改进OCR修正过程。
  • 支持文本处理任务:提高文本识别准确性,适用于分类、去重等任务。

许可证

cc0-1.0

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作