Quicksign OCRized Text Dataset (QS-OCR)
收藏github2024-04-12 更新2024-05-31 收录
下载链接:
https://github.com/QuickSign/ocrized-text-dataset
下载链接
链接失效反馈官方服务:
资源简介:
Quicksign OCRized Text Dataset是一个包含超过400,000个标记文本文件的集合,这些文件通过光学字符识别(OCR)从真实文档中提取。每个文件都与电子邮件、广告或科学出版物等感兴趣的类别相关联。
The Quicksign OCRized Text Dataset is a collection comprising over 400,000 tokenized text files, extracted from real documents through Optical Character Recognition (OCR). Each file is associated with a category of interest such as emails, advertisements, or scientific publications.
创建时间:
2019-04-26
原始信息汇总
数据集概述
数据集名称
- Quicksign OCRized Text Dataset (QS-OCR)
数据集版本
- QS-OCR-Large
- QS-OCR-Small
数据集内容
- QS-OCR-Large: 包含400,000个从RVL-CDIP数据集文档中通过Tesseract OCR工具提取的标记文本文件,分为15个类别。
- QS-OCR-Small: 包含3,482个从Tobacco3482数据集文档中通过Tesseract OCR工具提取的标记文本文件,分为10个类别。
数据集类别
- QS-OCR-Large: 包括信件、表格、电子邮件、手写文本、广告、科学报告、科学出版物、规格、文件夹、新闻文章、预算、发票、演示文稿、问卷、简历和备忘录。
- QS-OCR-Small: 包括广告、电子邮件、表格、信件、备忘录、新闻、笔记、报告、简历和科学文档。
数据集下载
- 数据集可在GitHub仓库的“releases”部分下载。
数据集生成方法
- 使用Tesseract OCR工具(版本4.0.0-beta.1)进行文本提取,采用LSTM引擎、自动页面分割和英语语言处理。
- 依赖Python库pytesseract进行自动化处理,未对原始图像进行进一步预处理,输出文本未经后处理。
数据集复现方法
- 可通过Docker或手动安装方式复现数据集。Docker方式简便,手动安装需要配置Tesseract、Python环境及必要的Python依赖库。
注意事项
- QS-OCR-Small与QS-OCR-Large之间存在部分样本重叠,使用时需注意移除重叠样本以避免影响评估结果。
搜集汇总
数据集介绍

构建方式
QS-OCR数据集的构建基于RVL-CDIP和Tobacco3482两个数据集,通过应用Tesseract OCR工具从真实文档中提取文本。具体而言,QS-OCR-Large版本使用了RVL-CDIP数据集中的400,000张标注图像,而QS-OCR-Small版本则基于Tobacco3482数据集的3,482张图像。构建过程中,采用了Tesseract OCR的4.0.0-beta.1版本,使用LSTM引擎以提高准确性,并选择了自动页面分割和英语语言选项。生成的文本未经过进一步的后处理,以保持OCR输出的原始状态。
特点
QS-OCR数据集的主要特点在于其大规模的标注文本文件,涵盖了多种文档类型,如电子邮件、广告、科学出版物等。数据集分为两个版本:QS-OCR-Large包含400,000个标注文本文件,涵盖15个类别;QS-OCR-Small则包含3,482个标注文本文件,涵盖10个类别。此外,数据集的构建过程中保留了原始数据集的文件结构和分类标签,便于与现有模型和方法兼容。
使用方法
用户可以通过GitHub的“releases”部分下载QS-OCR数据集。数据集提供了预定义的训练、验证和测试集分割,用户可以直接使用这些分割进行模型训练和评估。对于QS-OCR-Small版本,由于没有预定义的分割,建议用户采用k折交叉验证方法。此外,数据集还提供了用于重新生成文本输出的脚本,用户可以通过Docker或手动安装依赖项来复现数据集的构建过程。
背景与挑战
背景概述
Quicksign OCRized Text Dataset (QS-OCR) 是由Quicksign公司于2019年发布的一个大规模文本分类数据集,旨在推动文档图像分析领域的研究。该数据集基于RVL-CDIP和Tobacco3482两个已有数据集,通过光学字符识别(OCR)技术从真实文档中提取文本,并为其分配了如电子邮件、广告、科学出版物等15个类别标签。QS-OCR的创建不仅填补了现有公开数据集中关于OCR噪声文本分类的空白,还为文档分析工具的开发提供了宝贵的资源。
当前挑战
QS-OCR数据集的构建面临多个挑战。首先,OCR技术在处理复杂文档时可能引入噪声,导致文本质量下降,从而影响分类模型的性能。其次,数据集的构建过程中需要处理大量文档,确保OCR输出的准确性和一致性。此外,QS-OCR-Small与QS-OCR-Large之间存在部分重叠,这为评估迁移学习性能带来了额外的复杂性。最后,如何有效利用这些噪声文本进行模型训练,以提高文档图像分析的自动化水平,仍是该领域面临的重要挑战。
常用场景
经典使用场景
Quicksign OCRized Text Dataset (QS-OCR) 数据集的经典使用场景主要集中在文档图像的自动分类与分析领域。通过利用光学字符识别(OCR)技术从真实文档中提取的文本数据,该数据集为研究人员提供了丰富的标注文本,适用于多种文档类型的分类任务。例如,可以用于构建和训练深度学习模型,以自动识别和分类电子邮件、广告、科学出版物等不同类型的文档。
衍生相关工作
QS-OCR 数据集的发布激发了大量相关研究工作,特别是在文档图像分析和文本分类领域。例如,研究者利用该数据集开发了新的文本分类模型,以提高对噪声文本的处理能力。此外,QS-OCR 数据集还被用于探索跨领域迁移学习,通过结合不同数据集的特性,提升模型在多任务环境下的表现。这些衍生工作不仅丰富了该领域的研究内容,还推动了相关技术的实际应用。
数据集最近研究
最新研究方向
在光学字符识别(OCR)与文档图像分析领域,Quicksign OCRized Text Dataset (QS-OCR) 数据集的最新研究方向主要集中在提升OCR系统的鲁棒性和准确性,尤其是在处理噪声文本和复杂文档结构方面。该数据集通过结合RVL-CDIP和Tobacco3482数据集,提供了丰富的标注文本,为研究者提供了探索文档分类、信息提取和自然语言处理等前沿问题的宝贵资源。此外,随着深度学习和计算机视觉技术的快速发展,QS-OCR数据集的应用也扩展到了文档图像的自动分析和理解,尤其是在数字签名、法律文档处理和智能文档管理系统等领域,具有重要的实际意义和广泛的应用前景。
以上内容由遇见数据集搜集并总结生成



