Quicksign OCRized Text Dataset (QS-OCR)

github2024-04-12 更新2024-05-31 收录

下载链接：

https://github.com/Quicksign/ocrized-text-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Quicksign OCRized Text Dataset是一个包含超过400,000个标记文本文件的集合，这些文件通过光学字符识别(OCR)从真实文档中提取。每个文件都与电子邮件、广告或科学出版物等感兴趣的类别相关联。

The Quicksign OCRized Text Dataset is a collection comprising over 400,000 tokenized text files, extracted from real documents through Optical Character Recognition (OCR). Each file is associated with a category of interest such as emails, advertisements, or scientific publications.

创建时间：

2019-04-26

原始信息汇总

数据集概述

数据集名称

Quicksign OCRized Text Dataset (QS-OCR)

数据集版本

QS-OCR-Large: 包含400,000个标记的文本文件，源自RVL-CDIP数据集，分为15个类别。
QS-OCR-Small: 包含3,482个标记的文本文件，源自Tobacco3482数据集，分为10个类别。

数据集内容

QS-OCR-Large:
- 类别包括：Letter, Form, Email, Handwritten, Advertisement, Scientific report, Scientific publication, Specification, File folder, News article, Budget, Invoice, Presentation, Questionnaire, Resume, Memo。
- 预定义的训练、验证和测试分割。
QS-OCR-Small:
- 类别包括：Advertisement, Email, Form, Letter, Memo, News, Note, Report, Resume, Scientific。
- 未预定义训练/验证/测试分割，建议使用k-fold交叉验证。

数据集生成方法

使用Tesseract OCR工具处理文档图像。
使用参数：LSTM引擎（--oem 1），全自动页面分割（--psm 3），英语语言（-l eng）。
依赖Python库pytesseract进行自动化。

数据集下载

数据集可在GitHub仓库的"releases"部分下载。

注意事项

QS-OCR-Small和QS-OCR-Large之间存在部分重叠，使用时需注意移除共同样本以评估迁移学习性能。

搜集汇总

数据集介绍

构建方式

QS-OCR数据集的构建基于RVL-CDIP和Tobacco3482两个数据集，通过应用Tesseract OCR工具从真实文档中提取文本。具体而言，QS-OCR-Large版本利用RVL-CDIP数据集，生成包含400,000个标注文本文件的集合，涵盖15个类别；而QS-OCR-Small版本则基于Tobacco3482数据集，生成3,482个标注文本文件，涵盖10个类别。构建过程中，使用了Tesseract OCR的4.0.0-beta.1版本，采用LSTM引擎以提高准确性，并选择自动页面分割模式和英语语言模型。生成的文本未经进一步处理，保留了OCR的原始输出。

特点

QS-OCR数据集的主要特点在于其大规模的标注文本文件集合，涵盖了多种文档类型，如电子邮件、广告、科学出版物等。数据集分为QS-OCR-Large和QS-OCR-Small两个版本，分别针对不同的应用场景和数据规模。此外，数据集的构建过程中保留了OCR的原始输出，未进行任何后处理，使得数据集能够真实反映OCR在实际应用中的表现，特别适用于处理因识别错误导致的噪声文本。

使用方法

用户可以通过GitHub的“releases”部分下载QS-OCR数据集，并根据预定义的训练、验证和测试集进行模型训练和评估。对于QS-OCR-Small版本，建议采用k折交叉验证以充分利用数据。数据集的复现可通过Docker容器或手动安装相关依赖进行，具体步骤包括下载原始数据集、运行OCR脚本生成文本文件等。此外，提供了Python脚本以帮助用户自定义处理流程。

背景与挑战

背景概述

Quicksign OCRized Text Dataset (QS-OCR) 是由Quicksign公司于2019年发布的一个大规模文本分类数据集，旨在推动文档图像分析领域的研究。该数据集基于RVL-CDIP和Tobacco3482两个已有数据集，通过光学字符识别（OCR）技术从真实文档中提取文本，并为其分配了15个类别标签。QS-OCR的创建动机源于现有公开数据集在处理OCR噪声文本方面的不足，尤其是针对用户生成内容的分类数据集，这些数据通常较为“干净”。QS-OCR的发布为研究人员提供了一个新的工具，以探索自动化文档图像分析的更深层次。

当前挑战

QS-OCR数据集的构建面临多个挑战。首先，OCR技术在处理复杂文档时可能引入噪声，导致文本质量下降，这为后续的文本分类任务增加了难度。其次，数据集的构建过程中需要处理大量文档，确保OCR输出的准确性和一致性，这对计算资源和算法性能提出了较高要求。此外，QS-OCR-Small与QS-OCR-Large之间存在部分重叠，用户在使用时需注意去除重复样本，以避免影响模型评估的准确性。最后，尽管数据集提供了预定义的训练、验证和测试集划分，但QS-OCR-Small的划分方式仍需用户自行处理，增加了使用的复杂性。

常用场景

经典使用场景

QS-OCR数据集的经典使用场景主要集中在文档图像的自动化分析与分类任务中。通过结合光学字符识别（OCR）技术，该数据集提供了从真实文档中提取的大量标注文本，涵盖了多种文档类型，如电子邮件、广告、科学出版物等。研究者和开发者可以利用这些数据训练和评估文本分类模型，特别是在处理带有噪声的OCR输出时，该数据集尤为重要。

实际应用

在实际应用中，QS-OCR数据集可广泛应用于数字身份验证、文档自动化处理和智能文档管理系统等领域。例如，在数字身份验证过程中，系统可以通过分析用户上传的文档类型（如简历、发票等）来自动判断文档的有效性和真实性。此外，该数据集还可用于开发智能文档分类系统，帮助企业自动化处理和归档大量文档，提高工作效率。

衍生相关工作

基于QS-OCR数据集，研究者们已经开展了多项相关工作，特别是在文档图像分析和文本分类领域。例如，有研究利用该数据集训练深度学习模型，以提高OCR输出文本的分类准确性。此外，还有工作探讨了如何通过迁移学习技术，将QS-OCR数据集中的知识应用到其他文档分类任务中，进一步推动了文档自动化处理技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集