EcrOp/RVL-CDIP-documents-donut

Name: EcrOp/RVL-CDIP-documents-donut
Creator: EcrOp
Published: 2024-03-26 08:02:50
License: 暂无描述

Hugging Face2024-03-26 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/EcrOp/RVL-CDIP-documents-donut

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: image dtype: image - name: ground_truth dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 166476320.0 num_examples: 1600 - name: validation num_bytes: 15392444.0 num_examples: 160 - name: test num_bytes: 80367176.0 num_examples: 800 - name: train_800 num_bytes: 83301114.0 num_examples: 800 - name: train_400 num_bytes: 41873661.0 num_examples: 400 - name: train_160 num_bytes: 16726920.0 num_examples: 160 - name: test_2 num_bytes: 15537435.0 num_examples: 160 - name: test_3 num_bytes: 13972614.0 num_examples: 160 - name: test_4 num_bytes: 17178233.0 num_examples: 160 - name: test_5 num_bytes: 17148238.0 num_examples: 160 download_size: 470189693 dataset_size: 467974155.0 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* - split: train_800 path: data/train_800-* - split: train_400 path: data/train_400-* - split: train_160 path: data/train_160-* - split: test_2 path: data/test_2-* - split: test_3 path: data/test_3-* - split: test_4 path: data/test_4-* - split: test_5 path: data/test_5-* ---

数据集信息：特征字段： - 名称：image，数据类型：图像（image） - 名称：ground_truth，数据类型：字符串 - 名称：label，数据类型：64位整数类型数据集划分： - 划分名称：训练集（train），字节数：166476320.0，样本数量：1600 - 划分名称：验证集（validation），字节数：15392444.0，样本数量：160 - 划分名称：测试集（test），字节数：80367176.0，样本数量：800 - 划分名称：train_800，字节数：83301114.0，样本数量：800 - 划分名称：train_400，字节数：41873661.0，样本数量：400 - 划分名称：train_160，字节数：16726920.0，样本数量：160 - 划分名称：test_2，字节数：15537435.0，样本数量：160 - 划分名称：test_3，字节数：13972614.0，样本数量：160 - 划分名称：test_4，字节数：17178233.0，样本数量：160 - 划分名称：test_5，字节数：17148238.0，样本数量：160 下载总大小：470189693 数据集总占用大小：467974155.0 配置项： - 配置名称：默认配置（default），数据文件： - 划分：训练集（train），路径：data/train-* - 划分：验证集（validation），路径：data/validation-* - 划分：测试集（test），路径：data/test-* - 划分：train_800，路径：data/train_800-* - 划分：train_400，路径：data/train_400-* - 划分：train_160，路径：data/train_160-* - 划分：test_2，路径：data/test_2-* - 划分：test_3，路径：data/test_3-* - 划分：test_4，路径：data/test_4-* - 划分：test_5，路径：data/test_5-*

提供机构：

EcrOp

原始信息汇总

数据集概述

特征信息

image：图像数据，数据类型为图像。
ground_truth：字符串类型数据。
label：整数类型数据，数据类型为int64。

数据分割详情

train：包含1600个样本，总大小为166476320.0字节。
validation：包含160个样本，总大小为15392444.0字节。
test：包含800个样本，总大小为80367176.0字节。
train_800：包含800个样本，总大小为83301114.0字节。
train_400：包含400个样本，总大小为41873661.0字节。
train_160：包含160个样本，总大小为16726920.0字节。
test_2：包含160个样本，总大小为15537435.0字节。
test_3：包含160个样本，总大小为13972614.0字节。
test_4：包含160个样本，总大小为17178233.0字节。
test_5：包含160个样本，总大小为17148238.0字节。

数据集大小

下载大小：470189693字节。
数据集大小：467974155.0字节。

搜集汇总

数据集介绍

构建方式

在文档智能领域，RVL-CDIP-documents-donut数据集基于原始RVL-CDIP数据集构建，专注于文档图像理解任务。该数据集通过系统化处理，将文档图像与对应的文本标注及类别标签整合，形成结构化样本。构建过程中，原始图像被转换为标准格式，并配以精确的ground_truth文本和整数标签，确保了数据的一致性与可用性。数据集划分为训练、验证和测试集，并额外提供多个子集版本，以适应不同规模的研究需求，体现了构建方法的灵活性与严谨性。

特点

该数据集的核心特征在于其多模态结构，每一样本包含图像、文本和标签三重信息，为文档分析与理解提供了丰富上下文。图像特征捕捉文档的视觉布局，ground_truth字段提供精确的文本内容，而标签则对应文档的类别标识，支持分类与识别任务。数据集规模适中，涵盖多种分割版本，如train_800、train_400等，便于模型训练与评估的灵活调整。这种设计使得数据集既能满足大规模实验需求，又适合资源受限环境下的快速验证。

使用方法

使用该数据集时，研究人员可通过HuggingFace平台直接加载，利用其预定义的分割进行模型训练与测试。数据集支持图像处理与自然语言处理任务的结合，例如文档分类、文本提取或视觉问答。用户可根据实验需求选择不同规模的子集，如train_160用于小样本学习，test_2至test_5用于多轮评估，以增强结果的稳健性。数据加载后，图像可输入视觉模型，ground_truth用于监督学习，标签则服务于性能度量，实现端到端的文档智能应用。

背景与挑战

背景概述

RVL-CDIP数据集由IBM研究院于2016年创建，旨在推动文档图像分析与理解领域的研究。该数据集源自真实商业文档，包含超过40万张图像，涵盖16个文档类别，如信件、表单和报告等。其核心研究问题在于实现文档图像的自动分类与内容解析，为光学字符识别（OCR）与自然语言处理（NLP）的交叉应用提供基准。该数据集显著促进了文档智能系统的发展，成为评估文档分类模型性能的重要资源，对金融、法律等行业的自动化处理产生了深远影响。

当前挑战

在文档图像分类领域，RVL-CDIP数据集面临的挑战包括文档布局的多样性、图像质量的差异性以及类别间相似性导致的分类模糊性。构建过程中，研究人员需处理大量扫描文档的噪声、倾斜和光照不均等问题，同时确保标注的准确性与一致性。此外，数据集的规模与复杂性对计算资源提出了较高要求，模型需在保持高效性的同时应对多类别细粒度分类的难题。

常用场景

经典使用场景

在文档智能领域，RVL-CDIP-documents-donut数据集为视觉文档理解任务提供了关键支持。该数据集以图像与文本标注相结合的形式，广泛用于训练和评估文档图像分类与内容解析模型。其经典使用场景集中在文档类型识别，涵盖信件、表格、报告等16类常见文档，通过端到端的学习框架，模型能够直接从图像中提取结构化信息，推动文档自动化处理技术的演进。

实际应用

在实际应用中，RVL-CDIP-documents-donut数据集赋能了众多行业场景。例如，在金融与法律领域，自动化文档分类系统能够高效处理大量合同、发票与表单，减少人工干预并提升处理速度。企业利用该数据集训练的模型进行文档归档与检索，优化信息管理流程。此外，教育机构借助其实现学术材料的智能整理，展现了文档智能技术在现实世界中的广泛价值与实用性。

衍生相关工作

基于该数据集，学术界衍生了一系列经典研究工作。例如，Donut模型首次将视觉文档理解任务转化为序列生成问题，实现了端到端的文档解析。后续研究如LayoutLM等模型进一步融合文本与布局信息，提升了多模态文档分析的性能。这些工作不仅推动了文档智能领域的技术创新，还为OCR增强、文档问答等应用方向提供了理论基础，形成了丰富的研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集