olmOCR-mix-0225 大规模 PDF 文档数据集

超神经2025-03-10 更新2025-03-08 收录

下载链接：

https://hyper.ai/cn/datasets/38115

下载链接

链接失效反馈

官方服务：

资源简介：

olmOCR-mix-0225 是一个大规模、高质量的 PDF 文档数据集，专为训练和优化光学字符识别 (OCR) 模型而设计。该数据集由 Allen Institute for AI 于 2025 年发布，相关论文成果为「olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models」。

olmOCR-mix-0225 是一款大规模、高质量的PDF文档数据集，专为训练与优化光学字符识别（Optical Character Recognition，OCR）模型所构建。该数据集由艾伦人工智能研究所（Allen Institute for AI）于2025年发布，相关研究论文题为《olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models》。

创建时间：

2025-03-04

搜集汇总

数据集介绍

背景与挑战

背景概述

olmOCR-mix-0225是一个包含250k页PDF内容的大规模数据集，专为OCR模型训练优化，涵盖学术论文、法律文件等多种类型，并使用GPT-4o进行高质量标注。数据集还提取了页面元素的坐标信息，有效减少模型幻觉，适用于OCR文档处理流程的训练和评估。

以上内容由遇见数据集搜集并总结生成