EcrOp/RVL-CDIP-documents-donut
收藏Hugging Face2024-03-26 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/EcrOp/RVL-CDIP-documents-donut
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: image
dtype: image
- name: ground_truth
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 166476320.0
num_examples: 1600
- name: validation
num_bytes: 15392444.0
num_examples: 160
- name: test
num_bytes: 80367176.0
num_examples: 800
- name: train_800
num_bytes: 83301114.0
num_examples: 800
- name: train_400
num_bytes: 41873661.0
num_examples: 400
- name: train_160
num_bytes: 16726920.0
num_examples: 160
- name: test_2
num_bytes: 15537435.0
num_examples: 160
- name: test_3
num_bytes: 13972614.0
num_examples: 160
- name: test_4
num_bytes: 17178233.0
num_examples: 160
- name: test_5
num_bytes: 17148238.0
num_examples: 160
download_size: 470189693
dataset_size: 467974155.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: validation
path: data/validation-*
- split: test
path: data/test-*
- split: train_800
path: data/train_800-*
- split: train_400
path: data/train_400-*
- split: train_160
path: data/train_160-*
- split: test_2
path: data/test_2-*
- split: test_3
path: data/test_3-*
- split: test_4
path: data/test_4-*
- split: test_5
path: data/test_5-*
---
数据集信息:
特征字段:
- 名称:image,数据类型:图像(image)
- 名称:ground_truth,数据类型:字符串
- 名称:label,数据类型:64位整数类型
数据集划分:
- 划分名称:训练集(train),字节数:166476320.0,样本数量:1600
- 划分名称:验证集(validation),字节数:15392444.0,样本数量:160
- 划分名称:测试集(test),字节数:80367176.0,样本数量:800
- 划分名称:train_800,字节数:83301114.0,样本数量:800
- 划分名称:train_400,字节数:41873661.0,样本数量:400
- 划分名称:train_160,字节数:16726920.0,样本数量:160
- 划分名称:test_2,字节数:15537435.0,样本数量:160
- 划分名称:test_3,字节数:13972614.0,样本数量:160
- 划分名称:test_4,字节数:17178233.0,样本数量:160
- 划分名称:test_5,字节数:17148238.0,样本数量:160
下载总大小:470189693
数据集总占用大小:467974155.0
配置项:
- 配置名称:默认配置(default),数据文件:
- 划分:训练集(train),路径:data/train-*
- 划分:验证集(validation),路径:data/validation-*
- 划分:测试集(test),路径:data/test-*
- 划分:train_800,路径:data/train_800-*
- 划分:train_400,路径:data/train_400-*
- 划分:train_160,路径:data/train_160-*
- 划分:test_2,路径:data/test_2-*
- 划分:test_3,路径:data/test_3-*
- 划分:test_4,路径:data/test_4-*
- 划分:test_5,路径:data/test_5-*
提供机构:
EcrOp
原始信息汇总
数据集概述
特征信息
- image:图像数据,数据类型为图像。
- ground_truth:字符串类型数据。
- label:整数类型数据,数据类型为int64。
数据分割详情
- train:包含1600个样本,总大小为166476320.0字节。
- validation:包含160个样本,总大小为15392444.0字节。
- test:包含800个样本,总大小为80367176.0字节。
- train_800:包含800个样本,总大小为83301114.0字节。
- train_400:包含400个样本,总大小为41873661.0字节。
- train_160:包含160个样本,总大小为16726920.0字节。
- test_2:包含160个样本,总大小为15537435.0字节。
- test_3:包含160个样本,总大小为13972614.0字节。
- test_4:包含160个样本,总大小为17178233.0字节。
- test_5:包含160个样本,总大小为17148238.0字节。
数据集大小
- 下载大小:470189693字节。
- 数据集大小:467974155.0字节。
搜集汇总
数据集介绍

构建方式
在文档智能领域,RVL-CDIP-documents-donut数据集基于原始RVL-CDIP数据集构建,专注于文档图像理解任务。该数据集通过系统化处理,将文档图像与对应的文本标注及类别标签整合,形成结构化样本。构建过程中,原始图像被转换为标准格式,并配以精确的ground_truth文本和整数标签,确保了数据的一致性与可用性。数据集划分为训练、验证和测试集,并额外提供多个子集版本,以适应不同规模的研究需求,体现了构建方法的灵活性与严谨性。
特点
该数据集的核心特征在于其多模态结构,每一样本包含图像、文本和标签三重信息,为文档分析与理解提供了丰富上下文。图像特征捕捉文档的视觉布局,ground_truth字段提供精确的文本内容,而标签则对应文档的类别标识,支持分类与识别任务。数据集规模适中,涵盖多种分割版本,如train_800、train_400等,便于模型训练与评估的灵活调整。这种设计使得数据集既能满足大规模实验需求,又适合资源受限环境下的快速验证。
使用方法
使用该数据集时,研究人员可通过HuggingFace平台直接加载,利用其预定义的分割进行模型训练与测试。数据集支持图像处理与自然语言处理任务的结合,例如文档分类、文本提取或视觉问答。用户可根据实验需求选择不同规模的子集,如train_160用于小样本学习,test_2至test_5用于多轮评估,以增强结果的稳健性。数据加载后,图像可输入视觉模型,ground_truth用于监督学习,标签则服务于性能度量,实现端到端的文档智能应用。
背景与挑战
背景概述
RVL-CDIP数据集由IBM研究院于2016年创建,旨在推动文档图像分析与理解领域的研究。该数据集源自真实商业文档,包含超过40万张图像,涵盖16个文档类别,如信件、表单和报告等。其核心研究问题在于实现文档图像的自动分类与内容解析,为光学字符识别(OCR)与自然语言处理(NLP)的交叉应用提供基准。该数据集显著促进了文档智能系统的发展,成为评估文档分类模型性能的重要资源,对金融、法律等行业的自动化处理产生了深远影响。
当前挑战
在文档图像分类领域,RVL-CDIP数据集面临的挑战包括文档布局的多样性、图像质量的差异性以及类别间相似性导致的分类模糊性。构建过程中,研究人员需处理大量扫描文档的噪声、倾斜和光照不均等问题,同时确保标注的准确性与一致性。此外,数据集的规模与复杂性对计算资源提出了较高要求,模型需在保持高效性的同时应对多类别细粒度分类的难题。
常用场景
经典使用场景
在文档智能领域,RVL-CDIP-documents-donut数据集为视觉文档理解任务提供了关键支持。该数据集以图像与文本标注相结合的形式,广泛用于训练和评估文档图像分类与内容解析模型。其经典使用场景集中在文档类型识别,涵盖信件、表格、报告等16类常见文档,通过端到端的学习框架,模型能够直接从图像中提取结构化信息,推动文档自动化处理技术的演进。
实际应用
在实际应用中,RVL-CDIP-documents-donut数据集赋能了众多行业场景。例如,在金融与法律领域,自动化文档分类系统能够高效处理大量合同、发票与表单,减少人工干预并提升处理速度。企业利用该数据集训练的模型进行文档归档与检索,优化信息管理流程。此外,教育机构借助其实现学术材料的智能整理,展现了文档智能技术在现实世界中的广泛价值与实用性。
衍生相关工作
基于该数据集,学术界衍生了一系列经典研究工作。例如,Donut模型首次将视觉文档理解任务转化为序列生成问题,实现了端到端的文档解析。后续研究如LayoutLM等模型进一步融合文本与布局信息,提升了多模态文档分析的性能。这些工作不仅推动了文档智能领域的技术创新,还为OCR增强、文档问答等应用方向提供了理论基础,形成了丰富的研究脉络。
以上内容由遇见数据集搜集并总结生成



