olmOCR-mix-0225 大规模 PDF 文档数据集
收藏超神经2025-03-10 更新2025-03-08 收录
下载链接:
https://hyper.ai/cn/datasets/38115
下载链接
链接失效反馈官方服务:
资源简介:
olmOCR-mix-0225 是一个大规模、高质量的 PDF 文档数据集,专为训练和优化光学字符识别 (OCR) 模型而设计。该数据集由 Allen Institute for AI 于 2025 年发布,相关论文成果为「olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models」。
olmOCR-mix-0225 是一款大规模、高质量的PDF文档数据集,专为训练与优化光学字符识别(Optical Character Recognition,OCR)模型所构建。该数据集由艾伦人工智能研究所(Allen Institute for AI)于2025年发布,相关研究论文题为《olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models》。
创建时间:
2025-03-04
搜集汇总
数据集介绍

背景与挑战
背景概述
olmOCR-mix-0225是一个包含250k页PDF内容的大规模数据集,专为OCR模型训练优化,涵盖学术论文、法律文件等多种类型,并使用GPT-4o进行高质量标注。数据集还提取了页面元素的坐标信息,有效减少模型幻觉,适用于OCR文档处理流程的训练和评估。
以上内容由遇见数据集搜集并总结生成



