chainyo/rvl-cdip-invoice
收藏Hugging Face2022-04-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/chainyo/rvl-cdip-invoice
下载链接
链接失效反馈官方服务:
资源简介:
RVL-CDIP(Ryerson Vision Lab Complex Document Information Processing)数据集包含40万张灰度图像,分为16个类别,每个类别有2.5万张图像。其中,32万张用于训练,4万张用于验证,4万张用于测试。图像的尺寸被调整为最大维度不超过1000像素。此README文件描述的是该数据集的一个子集,仅包含`invoice`类。
提供机构:
chainyo
原始信息汇总
数据集概述
数据集名称
RVL-CDIP (Ryerson Vision Lab Complex Document Information Processing)
数据集内容
- 包含400,000张灰度图像,分为16个类别,每个类别25,000张图像。
- 图像尺寸:最大维度不超过1000像素。
数据集划分
- 训练集:320,000张
- 验证集:40,000张
- 测试集:40,000张
数据集类别
0: 信件
1: 表格
2: 电子邮件
3: 手写
4: 广告
5: 科学报告
6: 科学出版物
7: 规格说明
8: 文件夹
9: 新闻文章
10: 预算
11: 发票
12: 演示文稿
13: 问卷
14: 简历
15: 备忘录
许可证
数据集为IIT-CDIP的子集,源自Legacy Tobacco Document Library,具体许可证信息可参考此处。
引用信息
- 来源论文:A. W. Harley, A. Ufkes, K. G. Derpanis, "Evaluation of Deep Convolutional Nets for Document Image Classification and Retrieval," in ICDAR, 2015



