five

asoria/pdf_bench-docling

收藏
Hugging Face2024-12-11 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/asoria/pdf_bench-docling
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集的结构详细描述了文档处理相关的特征及其数据类型。数据集包含页面、行、单词、图像、表格等文档中常见的元素。数据以结构化形式存储,具有嵌套字段,表明文档元素的分层组织。特征包括图像和文本的边界框(bbox)、文本内容、分数以及对文档中其他元素的引用。数据集还包含元数据,如页码、大小和模式信息。

The datasets structure provides detailed features and their data types related to document processing. The dataset includes elements commonly found in documents, such as pages, lines, words, images, and tables. The data is stored in a structured format with nested fields, indicating a hierarchical organization of document elements. Features include bounding boxes (bbox) for images and text, text content, scores, and references to other elements within the document. The dataset also includes metadata such as page numbers, sizes, and schema information.
提供机构:
asoria
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作