chainyo/rvl-cdip

Name: chainyo/rvl-cdip
Creator: chainyo
Published: 2022-04-06 16:49:20
License: 暂无描述

Hugging Face2022-04-06 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/chainyo/rvl-cdip

下载链接

链接失效反馈

官方服务：

资源简介：

RVL-CDIP（Ryerson Vision Lab Complex Document Information Processing）数据集包含400,000张灰度图像，分为16个类别，每个类别有25,000张图像。数据集分为320,000张训练图像、40,000张验证图像和40,000张测试图像。图像的最大尺寸不超过1000像素。数据集的类别包括广告、预算、电子邮件、文件夹、表格、手写、发票、信件、备忘录、新闻文章、演示文稿、问卷、简历、科学出版物、科学报告和规格说明书。数据集是IIT-CDIP的子集，来源于Legacy Tobacco Document Library。

The RVL-CDIP (Ryerson Vision Lab Complex Document Information Processing) dataset contains 400,000 grayscale images, divided into 16 categories with 25,000 images per category. The dataset is split into 320,000 training images, 40,000 validation images, and 40,000 test images. The maximum dimension of each image does not exceed 1000 pixels. The categories of the dataset include advertisement, budget, email, folder, form, handwritten, invoice, letter, memo, news article, presentation, questionnaire, resume, scientific publication, scientific report, and specification document. This dataset is a subset of IIT-CDIP, sourced from the Legacy Tobacco Document Library.

提供机构：

chainyo

原始信息汇总

数据集概述

名称: RVL-CDIP (Ryerson Vision Lab Complex Document Information Processing) 数据集

内容: 包含400,000张灰度图像，分为16个类别，每个类别有25,000张图像。

图像尺寸: 最大维度不超过1000像素。

数据划分:

训练集: 320,000张图像
验证集: 40,000张图像
测试集: 40,000张图像

类别标签:

0: 广告
1: 预算
2: 电子邮件
3: 文件夹
4: 表单
5: 手写
6: 发票
7: 信件
8: 备忘录
9: 新闻文章
10: 演示文稿
11: 问卷
12: 简历
13: 科学出版物
14: 科学报告
15: 规格说明

引用: 数据集来源于论文 "Evaluation of Deep Convolutional Nets for Document Image Classification and Retrieval," in ICDAR, 2015。

许可证: RVL-CDIP是IIT-CDIP的一个子集，源自Legacy Tobacco Document Library，许可证信息可在此处查看。

搜集汇总

数据集介绍

构建方式

在文档图像处理领域，RVL-CDIP数据集作为一项重要资源，其构建过程体现了系统性与严谨性。该数据集源自IIT-CDIP集合，并进一步从烟草行业历史文档库中精选而来，涵盖了广告、预算、电子邮件、文件袋、表格、手写稿、发票、信件、备忘录、新闻文章、演示文稿、问卷、简历、科学出版物、科学报告及技术规范等十六个类别。每个类别均包含25,000幅灰度图像，总计40万幅样本，确保了类别间的均衡性。图像尺寸经过标准化处理，最大维度不超过1000像素，以维持视觉一致性。数据集按比例划分为32万训练图像、4万验证图像与4万测试图像，为模型训练与评估提供了结构化支持。

特点

RVL-CDIP数据集在复杂文档信息处理研究中展现出显著特点。其涵盖十六种文档类型，范围从日常通信到专业科学文献，呈现了丰富的语义多样性。所有图像均为灰度格式，专注于结构与内容特征，避免了色彩干扰。图像尺寸统一规范，最大边长限制在1000像素以内，既保留了细节清晰度，又优化了计算效率。数据划分遵循标准机器学习实践，训练、验证与测试集比例明确，支持可靠的模型性能评估。该数据集作为公开基准，推动了文档分类、检索等任务的研究进展。

使用方法

在文档分析与计算机视觉研究中，RVL-CDIP数据集的使用方法遵循典型流程。研究者可首先下载完整数据集，并依据预设划分加载训练、验证与测试集。图像预处理通常包括尺寸调整与归一化，以适应深度学习模型输入要求。类别标签对应0至15的整数索引，便于监督学习任务。该数据集常用于训练卷积神经网络等模型，进行文档图像分类或检索实验。评估时，可在测试集上计算准确率等指标，验证模型泛化能力。引用相关论文并遵守原始许可协议，是使用该数据集的基本学术规范。

背景与挑战

背景概述

在文档图像处理领域，复杂文档的自动分类与检索一直是关键研究课题。RVL-CDIP数据集由瑞尔森视觉实验室于2015年创建，主要研究人员包括Adam Harley等人，其核心研究问题在于评估深度卷积神经网络在文档图像分类与检索任务中的性能。该数据集源自IIT-CDIP，并最终来源于加州大学旧金山分校的Legacy Tobacco Document Library，包含了16个类别的40万张灰度图像，每类2.5万张，划分为训练集、验证集和测试集。作为文档图像分析领域的重要基准，RVL-CDIP推动了深度学习在文档处理中的应用，对信息检索、数字化档案管理等领域产生了深远影响。

当前挑战

RVL-CDIP数据集旨在解决文档图像分类与检索的挑战，其核心问题在于处理复杂文档的多样性与结构性差异，例如区分广告、预算表、发票等不同类别文档的视觉特征。在构建过程中，数据集面临多重挑战：首先，文档图像需从历史烟草文档库中提取并预处理，确保图像质量与尺寸一致性，最大维度限制在1000像素以内；其次，类别平衡与标注准确性要求高，需避免类间混淆，如手写文档与打印文档的区分；此外，数据集的灰度处理虽简化了计算复杂度，但也可能损失部分彩色文档的关键信息，增加了模型学习的难度。

常用场景

经典使用场景

在文档图像分析领域，RVL-CDIP数据集常被用于训练和评估深度学习模型在复杂文档图像分类任务中的性能。该数据集包含16个类别的灰度图像，涵盖了广告、预算、电子邮件、手写稿、发票、科学出版物等多种文档类型，为研究者提供了一个标准化的基准测试平台。通过利用其大规模且类别均衡的图像样本，模型能够学习到不同文档结构的视觉特征，进而实现高精度的自动分类。

实际应用

在实际应用中，RVL-CDIP数据集被广泛用于开发自动化文档管理系统。例如，在企业环境中，基于该数据集训练的模型可以自动分类扫描的发票、报告或简历，从而优化档案整理和信息检索流程。此外，在数字图书馆和学术机构中，它支持对科学出版物和手写文档的智能归档，提高了文档处理效率并减少了人工成本，为办公自动化和知识管理提供了技术支撑。

衍生相关工作

围绕RVL-CDIP数据集，衍生了一系列经典研究工作。例如，原论文中提出的深度卷积网络评估框架为后续文档图像分类模型设定了基准。后续研究如结合注意力机制的神经网络、多模态融合方法以及迁移学习策略，都利用该数据集验证了其在提升文档理解能力方面的有效性。这些工作不仅扩展了数据集的应用范围，还推动了文档分析技术向更高效、更鲁棒的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集