pixparse/pdfa-eng-wds
收藏Hugging Face2024-03-29 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/pixparse/pdfa-eng-wds
下载链接
链接失效反馈官方服务:
资源简介:
PDFA数据集是从SafeDocs语料库中筛选出来的文档数据集,主要用于视觉-语言模型的机器学习。数据集包含PDF文档及其对应的JSON文件,JSON文件中包含了OCR注释和元数据信息。数据集经过过滤,去除了过大或渲染过慢的文件,并限制为英语文档。数据集以webdataset格式提供,适用于大规模的多模态机器学习任务。
The PDFA Dataset is a document dataset curated from the SafeDocs corpus, primarily intended for machine learning with vision-language models. The dataset includes PDF documents and their corresponding JSON files, which contain OCR annotations and metadata. It has been filtered to remove files that are excessively large or slow to render, and is restricted to English-language documents. The dataset is provided in the webdataset format, suitable for large-scale multimodal machine learning tasks.
提供机构:
pixparse
原始信息汇总
数据集概述
名称: PDFA dataset
来源: 从SafeDocs语料库(CC-MAIN-2021-31-PDF-UNTRUNCATED)中筛选得到。
原始目的: 用于全面的PDF文档分析。
当前目的: 专注于准备一个机器学习就绪的数据集,特别是为视觉语言模型。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个经过优化的英文PDF文档数据集,包含约2,159,432个样本,18M页和9.7亿个token,主要用于视觉语言模型的图像到文本任务训练。数据集经过严格筛选,确保文件大小适中、渲染时间合理,并且仅包含英文内容,同时提供了丰富的OCR注释和元数据信息。
以上内容由遇见数据集搜集并总结生成



