five

chainyo/rvl-cdip-invoice

收藏
Hugging Face2022-04-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chainyo/rvl-cdip-invoice
下载链接
链接失效反馈
官方服务:
资源简介:
RVL-CDIP(Ryerson Vision Lab Complex Document Information Processing)数据集包含40万张灰度图像,分为16个类别,每个类别有2.5万张图像。其中,32万张用于训练,4万张用于验证,4万张用于测试。图像的尺寸被调整为最大维度不超过1000像素。此README文件描述的是该数据集的一个子集,仅包含`invoice`类。
提供机构:
chainyo
原始信息汇总

数据集概述

数据集名称

RVL-CDIP (Ryerson Vision Lab Complex Document Information Processing)

数据集内容

  • 包含400,000张灰度图像,分为16个类别,每个类别25,000张图像。
  • 图像尺寸:最大维度不超过1000像素。

数据集划分

  • 训练集:320,000张
  • 验证集:40,000张
  • 测试集:40,000张

数据集类别

0: 信件
1: 表格
2: 电子邮件
3: 手写
4: 广告
5: 科学报告
6: 科学出版物
7: 规格说明
8: 文件夹
9: 新闻文章
10: 预算
11: 发票
12: 演示文稿
13: 问卷
14: 简历
15: 备忘录

许可证

数据集为IIT-CDIP的子集,源自Legacy Tobacco Document Library,具体许可证信息可参考此处

引用信息

  • 来源论文:A. W. Harley, A. Ufkes, K. G. Derpanis, "Evaluation of Deep Convolutional Nets for Document Image Classification and Retrieval," in ICDAR, 2015
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作