five

ahmedheakl/arocrbench_doclaynetv2

收藏
Hugging Face2025-02-10 更新2025-02-15 收录
下载链接:
https://hf-mirror.com/datasets/ahmedheakl/arocrbench_doclaynetv2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含文档图像和相关文本信息,每个样本具有唯一的标识符,图像字段存储图片数据,texts字段存储与图像相关的文本。数据集中的 bounding boxes(边界框)信息以浮点数序列的形式给出,分别针对文本块(bboxes_block)和文本行(bboxes_line)。此外,数据集还包含了文档的分类信息、原始文件名、页码、总页数、原始宽度和高度等信息。数据集被划分为训练集,并提供了相应的配置文件。

The dataset consists of document images and associated text information. Each sample has a unique identifier, with the image field storing image data and the texts field storing text related to the image. The bounding box information in the dataset is given as sequences of floating-point numbers, for text blocks (bboxes_block) and text lines (bboxes_line) respectively. In addition, the dataset includes document category information, original filename, page number, total number of pages, original width and height, etc. The dataset is split into a training set, and the corresponding configuration file is provided.
提供机构:
ahmedheakl
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作