test-olmocr2

Hugging Face2025-10-23 更新2025-10-24 收录

下载链接：

https://huggingface.co/datasets/davanstrien/test-olmocr2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含使用olmOCR-2-7B模型从'davanstrien/test-olmocr2'数据集中的图像生成的markdown格式OCR结果。数据集具有高准确性，能够处理数学公式、HTML表格、文档结构、图表描述、文档方向、多列和复杂布局等。

创建时间：

2025-10-23

原始信息汇总

数据集概述

基本信息

数据集名称: Document OCR using olmOCR-2-7B-1025-FP8
标签: ocr, document-processing, olmocr, markdown, uv-script, generated
描述: 包含使用olmOCR-2-7B从图像中提取的Markdown格式OCR结果

处理详情

源数据集: davanstrien/test-olmocr2
使用模型: allenai/olmOCR-2-7B-1025-FP8
样本数量: 100
处理时间: 0小时3分钟32秒
处理日期: 2025-10-23 17:00 UTC

配置参数

图像列: image
输出列: - 数据集分割: train
批处理大小: 512
最大模型长度: 16,384个token
最大输出token数: 8,192个
GPU内存利用率: 80.0%

模型特性

LaTeX公式 - 数学公式以LaTeX格式提取
HTML表格 - 结构化表格提取
文档结构 - 保留标题、列表、格式
图表描述 - 图表和图形带有描述标签
旋转检测 - 文档方向元数据
自然阅读顺序 - 处理多列和复杂布局
高准确率 - 在olmOCR-Bench上得分82.4 ± 1.1

数据列说明

image: 原始文档图像
markdown: 以markdown格式提取的文本和结构
olmocr_metadata: 文档元数据（主要语言、旋转是否有效、旋转校正、是否为表格、是否为图表）
inference_info: 处理元数据（模型、脚本版本、时间戳）

引用信息

bibtex @misc{olmocr, title={{olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models}}, author={Jake Poznanski and Jon Borchardt and Jason Dunkelberger and Regan Huff and Daniel Lin and Aman Rangapur and Christopher Wilhelm and Kyle Lo and Luca Soldaini}, year={2025}, eprint={2502.18443}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.18443}, }

搜集汇总

数据集介绍

构建方式

在光学字符识别技术领域，test-olmocr2数据集通过先进的olmOCR-2-7B模型对原始图像进行自动化处理构建而成。该模型基于Qwen2.5-VL-7B-Instruct架构，经过olmOCR-mix-1025数据集的精细调优，并采用GRPO强化学习策略优化。处理过程中以512的批次大小对100个样本进行并行计算，通过16,384个最大标记长度的输入配置，生成包含原始图像与Markdown格式文本的结构化数据。

特点

该数据集显著特点在于其多模态解析能力，能够精准提取文档中的LaTeX数学公式与HTML表格结构。通过旋转检测机制自动校正文档方向，并保持原始文档的标题层级与列表格式。元数据字段详细记录了语言类型、表格标识和图表描述信息，其82.4±1.1的基准测试得分确保了文本还原的准确性，特别适用于复杂版面的学术文献数字化处理。

使用方法

研究人员可通过Hugging Face Jobs平台调用L4x1规格GPU资源，使用uv脚本执行自动化处理流程。输入指定源数据集路径后，系统将自动配置最大输出标记为8,192的参数，生成包含图像、Markdown文本及元数据的三元组结构。该输出可直接应用于文档数字化存档、多模态语言模型训练等场景，其标准化接口支持大规模批量处理与结果复现。

背景与挑战

背景概述

光学字符识别技术作为文档数字化处理的核心环节，其发展历程始终伴随着对多模态信息提取能力的追求。test-olmocr2数据集由AllenAI研究团队于2025年构建，基于先进视觉语言模型olmOCR-2-7B实现文档结构解析，该模型通过融合Qwen2.5-VL架构与GRPO强化学习优化，在olmOCR-mix-1025数据集上精调而成。该数据集聚焦于解决复杂文档场景下的多元素协同识别问题，不仅涵盖数学公式与表格的结构化提取，更通过旋转检测与阅读顺序重构技术，为学术文献数字化与知识图谱构建提供了重要支撑。

当前挑战

在文档OCR领域，test-olmocr2需应对多维度技术挑战：其核心任务需突破传统OCR对版面分析的局限，实现数学公式LaTeX渲染与HTML表格语义解析的协同处理；构建过程中面临文档图像质量变异与多语言混排的识别难题，特别是对旋转文本与多列版面的自适应解析。此外，模型需在保持82.4基准精度的同时，平衡16,384令牌的上下文理解与8,192输出令牌的生成效率，这对GPU内存管理与批量处理策略提出严峻考验。

常用场景

经典使用场景

在文档数字化处理领域，test-olmocr2数据集通过olmOCR-2-7B模型实现了对复杂文档结构的精准解析。该数据集将图像中的文档内容转换为规范的Markdown格式，完整保留数学公式的LaTeX表达、表格的HTML结构以及多级标题等语义元素。这种处理方式特别适用于学术文献和商业报告的自动化转录，为后续的文本分析与知识提取奠定坚实基础。

实际应用

在实际应用层面，该数据集支撑的OCR技术已广泛应用于图书馆档案数字化、企业文档管理系统等领域。其输出的结构化Markdown格式可直接集成至内容管理系统，实现文档内容的智能检索与重组。特别是在教育领域，该技术能够将历史文献中的数学公式准确转换为可编辑格式，大幅提升学术资源的可利用性。

衍生相关工作

基于该数据集的技术路线，衍生出多个文档理解的重要研究方向。相关研究团队进一步优化了表格结构识别算法，发展了面向古籍文献的特化OCR模型。这些工作延续了olmOCR模型的核心思想，在保持高精度的同时扩展了对特殊字符集和历史版式的支持能力，推动了整个文档智能处理领域的技术演进。

以上内容由遇见数据集搜集并总结生成