Quicksign OCRized Text Dataset (QS-OCR)

github2024-04-12 更新2024-05-31 收录

下载链接：

https://github.com/QuickSign/ocrized-text-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Quicksign OCRized Text Dataset是一个包含超过400,000个标记文本文件的集合，这些文件通过光学字符识别(OCR)从真实文档中提取。每个文件都与电子邮件、广告或科学出版物等感兴趣的类别相关联。

The Quicksign OCRized Text Dataset is a collection comprising over 400,000 tokenized text files, extracted from real documents through Optical Character Recognition (OCR). Each file is associated with a category of interest such as emails, advertisements, or scientific publications.

创建时间：

2019-04-26

原始信息汇总

数据集概述

数据集名称

Quicksign OCRized Text Dataset (QS-OCR)

数据集版本

QS-OCR-Large
QS-OCR-Small

数据集内容

QS-OCR-Large: 包含400,000个从RVL-CDIP数据集文档中通过Tesseract OCR工具提取的标记文本文件，分为15个类别。
QS-OCR-Small: 包含3,482个从Tobacco3482数据集文档中通过Tesseract OCR工具提取的标记文本文件，分为10个类别。

数据集类别

QS-OCR-Large: 包括信件、表格、电子邮件、手写文本、广告、科学报告、科学出版物、规格、文件夹、新闻文章、预算、发票、演示文稿、问卷、简历和备忘录。
QS-OCR-Small: 包括广告、电子邮件、表格、信件、备忘录、新闻、笔记、报告、简历和科学文档。

数据集下载

数据集可在GitHub仓库的“releases”部分下载。

数据集生成方法

使用Tesseract OCR工具（版本4.0.0-beta.1）进行文本提取，采用LSTM引擎、自动页面分割和英语语言处理。
依赖Python库pytesseract进行自动化处理，未对原始图像进行进一步预处理，输出文本未经后处理。

数据集复现方法

可通过Docker或手动安装方式复现数据集。Docker方式简便，手动安装需要配置Tesseract、Python环境及必要的Python依赖库。

注意事项

QS-OCR-Small与QS-OCR-Large之间存在部分样本重叠，使用时需注意移除重叠样本以避免影响评估结果。

搜集汇总

数据集介绍

构建方式

QS-OCR数据集的构建基于RVL-CDIP和Tobacco3482两个数据集，通过应用Tesseract OCR工具从真实文档中提取文本。具体而言，QS-OCR-Large版本使用了RVL-CDIP数据集中的400,000张标注图像，而QS-OCR-Small版本则基于Tobacco3482数据集的3,482张图像。构建过程中，采用了Tesseract OCR的4.0.0-beta.1版本，使用LSTM引擎以提高准确性，并选择了自动页面分割和英语语言选项。生成的文本未经过进一步的后处理，以保持OCR输出的原始状态。

特点

QS-OCR数据集的主要特点在于其大规模的标注文本文件，涵盖了多种文档类型，如电子邮件、广告、科学出版物等。数据集分为两个版本：QS-OCR-Large包含400,000个标注文本文件，涵盖15个类别；QS-OCR-Small则包含3,482个标注文本文件，涵盖10个类别。此外，数据集的构建过程中保留了原始数据集的文件结构和分类标签，便于与现有模型和方法兼容。

使用方法

用户可以通过GitHub的“releases”部分下载QS-OCR数据集。数据集提供了预定义的训练、验证和测试集分割，用户可以直接使用这些分割进行模型训练和评估。对于QS-OCR-Small版本，由于没有预定义的分割，建议用户采用k折交叉验证方法。此外，数据集还提供了用于重新生成文本输出的脚本，用户可以通过Docker或手动安装依赖项来复现数据集的构建过程。

背景与挑战

背景概述

Quicksign OCRized Text Dataset (QS-OCR) 是由Quicksign公司于2019年发布的一个大规模文本分类数据集，旨在推动文档图像分析领域的研究。该数据集基于RVL-CDIP和Tobacco3482两个已有数据集，通过光学字符识别（OCR）技术从真实文档中提取文本，并为其分配了如电子邮件、广告、科学出版物等15个类别标签。QS-OCR的创建不仅填补了现有公开数据集中关于OCR噪声文本分类的空白，还为文档分析工具的开发提供了宝贵的资源。

当前挑战

QS-OCR数据集的构建面临多个挑战。首先，OCR技术在处理复杂文档时可能引入噪声，导致文本质量下降，从而影响分类模型的性能。其次，数据集的构建过程中需要处理大量文档，确保OCR输出的准确性和一致性。此外，QS-OCR-Small与QS-OCR-Large之间存在部分重叠，这为评估迁移学习性能带来了额外的复杂性。最后，如何有效利用这些噪声文本进行模型训练，以提高文档图像分析的自动化水平，仍是该领域面临的重要挑战。

常用场景

经典使用场景

Quicksign OCRized Text Dataset (QS-OCR) 数据集的经典使用场景主要集中在文档图像的自动分类与分析领域。通过利用光学字符识别（OCR）技术从真实文档中提取的文本数据，该数据集为研究人员提供了丰富的标注文本，适用于多种文档类型的分类任务。例如，可以用于构建和训练深度学习模型，以自动识别和分类电子邮件、广告、科学出版物等不同类型的文档。

衍生相关工作

QS-OCR 数据集的发布激发了大量相关研究工作，特别是在文档图像分析和文本分类领域。例如，研究者利用该数据集开发了新的文本分类模型，以提高对噪声文本的处理能力。此外，QS-OCR 数据集还被用于探索跨领域迁移学习，通过结合不同数据集的特性，提升模型在多任务环境下的表现。这些衍生工作不仅丰富了该领域的研究内容，还推动了相关技术的实际应用。

数据集最近研究