five

RIPS-Goog-23/IIT-CDIP

收藏
Hugging Face2023-07-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/RIPS-Goog-23/IIT-CDIP
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: tar_file_letters dtype: string - name: filename dtype: string - name: text dtype: string - name: bboxes dtype: string - name: img dtype: string - name: img_width dtype: int64 - name: img_height dtype: int64 splits: - name: ra9 num_bytes: 91309162 num_examples: 2762 download_size: 81476979 dataset_size: 91309162 --- # Dataset Card for "IIT-CDIP-2" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

数据集信息: 特征字段: - 字段名:tar_file_letters,数据类型:字符串 - 字段名:filename(文件名),数据类型:字符串 - 字段名:text(文本内容),数据类型:字符串 - 字段名:bboxes(边界框),数据类型:字符串 - 字段名:img(图像),数据类型:字符串 - 字段名:img_width(图像宽度),数据类型:64位整数 - 字段名:img_height(图像高度),数据类型:64位整数 数据集划分: - 划分名称:ra9,占用字节数:91309162,样本数量:2762 下载大小:81476979 数据集总大小:91309162 --- # "IIT-CDIP-2"数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
RIPS-Goog-23
原始信息汇总

数据集概述

数据集特征

  • tar_file_letters: 数据类型为字符串。
  • filename: 数据类型为字符串。
  • text: 数据类型为字符串。
  • bboxes: 数据类型为字符串。
  • img: 数据类型为字符串。
  • img_width: 数据类型为整数(int64)。
  • img_height: 数据类型为整数(int64)。

数据集分割

  • ra9: 包含2762个样本,总大小为91309162字节。

数据集大小

  • 下载大小: 81476979字节。
  • 数据集总大小: 91309162字节。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
IIT-CDIP是一个包含文本和图像数据的多模态数据集,规模在1M到10M之间,提供1.88M行数据,适用于文本分析和图像处理任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作