five

jordyvl/rvl_cdip_n_mp

收藏
Hugging Face2023-08-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jordyvl/rvl_cdip_n_mp
下载链接
链接失效反馈
官方服务:
资源简介:
RVL-CDIP-N_MultiPage数据集是一个包含多种文档类型的数据集,支持多页格式。数据集的特征包括id、file和labels,其中labels是一个分类标签,包含16种不同的文档类型,如信件、表单、电子邮件、手写文档、广告、科学报告、科学出版物、规格说明书、文件夹、新闻文章、预算、发票、演示文稿、问卷、简历和备忘录。数据集仅包含测试集,大小为1349159996字节,包含991个样本。使用该数据集需要安装pypdf2、pdf2image和poppler-utils。

RVL-CDIP-N_MultiPage数据集是一个包含多种文档类型的数据集,支持多页格式。数据集的特征包括id、file和labels,其中labels是一个分类标签,包含16种不同的文档类型,如信件、表单、电子邮件、手写文档、广告、科学报告、科学出版物、规格说明书、文件夹、新闻文章、预算、发票、演示文稿、问卷、简历和备忘录。数据集仅包含测试集,大小为1349159996字节,包含991个样本。使用该数据集需要安装pypdf2、pdf2image和poppler-utils。
提供机构:
jordyvl
原始信息汇总

数据集卡片 RVL-CDIP-N_MultiPage

数据集信息

特征

  • id: 类型为字符串。
  • file: 类型为二进制。
  • labels: 类型为分类标签,包含以下类别:
    • 0: letter
    • 1: form
    • 2: email
    • 3: handwritten
    • 4: advertisement
    • 5: scientific report
    • 6: scientific publication
    • 7: specification
    • 8: file folder
    • 9: news article
    • 10: budget
    • 11: invoice
    • 12: presentation
    • 13: questionnaire
    • 14: resume
    • 15: memo

数据分割

  • test: 包含991个样本,总字节数为1349159996。

数据集大小

  • 下载大小: 0
  • 数据集大小: 1349159996

许可证

  • CC BY-NC 4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作