OCR-IDL
收藏arXiv2022-02-26 更新2024-06-21 收录
下载链接:
https://github.com/furkanbiten/idl_data
下载链接
链接失效反馈官方服务:
资源简介:
OCR-IDL数据集是由计算机视觉中心UAB创建,包含2600万页的工业文档,使用商业OCR引擎进行标注,具有超过20,000美元的估算价值。该数据集涵盖了化学、医学和药物行业的多种文档类型,如信件、报告、电子邮件等,时间跨度长达100年。创建过程中,通过Amazon Textract进行文档的预处理和标注,确保了高质量的文本和布局信息。OCR-IDL旨在推动文档智能领域的研究,特别是在自动文档结构化、分类和信息提取方面,以减少人工处理的时间和成本。
The OCR-IDL dataset was developed by the Computer Vision Center at UAB. It contains 26 million pages of industrial documents annotated using commercial OCR engines, with an estimated value exceeding $20,000. The dataset covers a wide range of document types from the chemical, medical and pharmaceutical industries, including letters, reports, emails and other types, with a time span of up to 100 years. During its creation, Amazon Textract was utilized for document preprocessing and annotation, ensuring high-quality text and layout information. The OCR-IDL dataset aims to advance research in the field of document intelligence, particularly in the areas of automatic document structuring, classification and information extraction, to reduce the time and cost associated with manual document processing.
提供机构:
计算机视觉中心,UAB
创建时间:
2022-02-26
搜集汇总
数据集介绍

构建方式
OCR-IDL 数据集的构建始于从 Industry Documents Library (IDL) 中下载 4.6 万份文档,这些文档涵盖了各个行业的内部文件,由加州大学旧金山分校图书馆托管。数据集采用了商业 OCR 引擎 Amazon Textract 进行文本识别和标注,该引擎在文档图像识别领域表现出色。经过预处理,移除了空、损坏或过大的文档,最终获得 26 万页的 OCR 标注数据。
特点
OCR-IDL 数据集具有以下特点:1) 规模庞大,包含 4.6 万份文档,26 万页的 OCR 标注数据,是第二大用于预训练的文档数据集,并且是首个使用商业 OCR 引擎进行标注的数据集;2) 内容丰富多样,涵盖化学、医疗、制药等行业的文档,包括信函、报告、电子邮件、备忘录等多种类型,文档跨度 100 年,具有丰富的语义和视觉特征;3) 文本丰富,每页平均包含 62.5 个单词和 17.5 行文本,适合进行预训练。
使用方法
OCR-IDL 数据集可用于文档智能领域的预训练和下游任务,例如文档结构分析、信息提取、布局识别等。用户可以使用数据集中的 OCR 标注进行模型训练和评估,从而提高文档处理任务的效率和准确性。此外,数据集还可以用于研究不同 OCR 引擎和预训练数据量对模型性能的影响。
背景与挑战
背景概述
文档智能作为一门研究学科,旨在创建能够自动分析和理解文档的模型,从而减少与文档处理相关的时间和成本。近年来,深度神经网络结合计算机视觉和自然语言处理在文档智能领域取得了显著进展。然而,现有的文档智能研究存在两个主要局限性:首先,它们依赖于小型人工标注数据集;其次,它们使用从未见过任何文档的预训练网络,因此缺乏文本和布局之间的交互。为了解决这些问题,OCR-IDL数据集应运而生。该数据集由Biten等人于2022年创建,旨在为文档智能研究提供大规模的文档数据集,并通过使用商业OCR引擎Amazon Textract进行OCR标注,以提供高质量的标注数据。
当前挑战
OCR-IDL数据集面临的挑战主要包括:1)不同研究论文中使用的文档数量和OCR引擎不同,导致结果无法公平比较;2)构建大规模数据集的成本较高,需要考虑数据量和标注质量的平衡;3)使用商业OCR引擎可能带来额外的成本和限制。
常用场景
经典使用场景
OCR-IDL数据集为文档智能领域的研究提供了宝贵的资源,其经典使用场景包括但不限于:1. 用于文档智能模型的预训练,通过在大量的文档上进行预训练,提升模型对文档结构和内容的理解能力;2. 用于文档结构分析,如表格检测、结构识别、布局分割等任务;3. 用于文档视觉问答,如根据文档内容回答相关问题。
解决学术问题
OCR-IDL数据集解决了文档智能领域中的几个关键问题:1. 预训练数据与OCR引擎的不一致使用导致模型性能难以比较的问题;2. 预训练数据规模对模型性能的影响问题;3. OCR引擎性能对模型性能的影响问题。通过使用高质量的OCR标注和大规模的数据集,OCR-IDL为解决这些问题提供了可能。
衍生相关工作
OCR-IDL数据集的发布促进了文档智能领域的研究,衍生出了一系列相关工作,例如:1. 基于OCR-IDL数据集的文档智能模型预训练方法;2. 基于OCR-IDL数据集的文档结构分析方法;3. 基于OCR-IDL数据集的文档视觉问答方法。
以上内容由遇见数据集搜集并总结生成



