five

test-olmocr2

收藏
Hugging Face2025-10-23 更新2025-10-24 收录
下载链接:
https://huggingface.co/datasets/davanstrien/test-olmocr2
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含使用olmOCR-2-7B模型从'davanstrien/test-olmocr2'数据集中的图像生成的markdown格式OCR结果。数据集具有高准确性,能够处理数学公式、HTML表格、文档结构、图表描述、文档方向、多列和复杂布局等。
创建时间:
2025-10-23
原始信息汇总

数据集概述

基本信息

  • 数据集名称: Document OCR using olmOCR-2-7B-1025-FP8
  • 标签: ocr, document-processing, olmocr, markdown, uv-script, generated
  • 描述: 包含使用olmOCR-2-7B从图像中提取的Markdown格式OCR结果

处理详情

  • 源数据集: davanstrien/test-olmocr2
  • 使用模型: allenai/olmOCR-2-7B-1025-FP8
  • 样本数量: 100
  • 处理时间: 0小时3分钟32秒
  • 处理日期: 2025-10-23 17:00 UTC

配置参数

  • 图像列: image
  • 输出列: - 数据集分割: train
  • 批处理大小: 512
  • 最大模型长度: 16,384个token
  • 最大输出token数: 8,192个
  • GPU内存利用率: 80.0%

模型特性

  • LaTeX公式 - 数学公式以LaTeX格式提取
  • HTML表格 - 结构化表格提取
  • 文档结构 - 保留标题、列表、格式
  • 图表描述 - 图表和图形带有描述标签
  • 旋转检测 - 文档方向元数据
  • 自然阅读顺序 - 处理多列和复杂布局
  • 高准确率 - 在olmOCR-Bench上得分82.4 ± 1.1

数据列说明

  • image: 原始文档图像
  • markdown: 以markdown格式提取的文本和结构
  • olmocr_metadata: 文档元数据(主要语言、旋转是否有效、旋转校正、是否为表格、是否为图表)
  • inference_info: 处理元数据(模型、脚本版本、时间戳)

引用信息

bibtex @misc{olmocr, title={{olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models}}, author={Jake Poznanski and Jon Borchardt and Jason Dunkelberger and Regan Huff and Daniel Lin and Aman Rangapur and Christopher Wilhelm and Kyle Lo and Luca Soldaini}, year={2025}, eprint={2502.18443}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.18443}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在光学字符识别技术领域,test-olmocr2数据集通过先进的olmOCR-2-7B模型对原始图像进行自动化处理构建而成。该模型基于Qwen2.5-VL-7B-Instruct架构,经过olmOCR-mix-1025数据集的精细调优,并采用GRPO强化学习策略优化。处理过程中以512的批次大小对100个样本进行并行计算,通过16,384个最大标记长度的输入配置,生成包含原始图像与Markdown格式文本的结构化数据。
特点
该数据集显著特点在于其多模态解析能力,能够精准提取文档中的LaTeX数学公式与HTML表格结构。通过旋转检测机制自动校正文档方向,并保持原始文档的标题层级与列表格式。元数据字段详细记录了语言类型、表格标识和图表描述信息,其82.4±1.1的基准测试得分确保了文本还原的准确性,特别适用于复杂版面的学术文献数字化处理。
使用方法
研究人员可通过Hugging Face Jobs平台调用L4x1规格GPU资源,使用uv脚本执行自动化处理流程。输入指定源数据集路径后,系统将自动配置最大输出标记为8,192的参数,生成包含图像、Markdown文本及元数据的三元组结构。该输出可直接应用于文档数字化存档、多模态语言模型训练等场景,其标准化接口支持大规模批量处理与结果复现。
背景与挑战
背景概述
光学字符识别技术作为文档数字化处理的核心环节,其发展历程始终伴随着对多模态信息提取能力的追求。test-olmocr2数据集由AllenAI研究团队于2025年构建,基于先进视觉语言模型olmOCR-2-7B实现文档结构解析,该模型通过融合Qwen2.5-VL架构与GRPO强化学习优化,在olmOCR-mix-1025数据集上精调而成。该数据集聚焦于解决复杂文档场景下的多元素协同识别问题,不仅涵盖数学公式与表格的结构化提取,更通过旋转检测与阅读顺序重构技术,为学术文献数字化与知识图谱构建提供了重要支撑。
当前挑战
在文档OCR领域,test-olmocr2需应对多维度技术挑战:其核心任务需突破传统OCR对版面分析的局限,实现数学公式LaTeX渲染与HTML表格语义解析的协同处理;构建过程中面临文档图像质量变异与多语言混排的识别难题,特别是对旋转文本与多列版面的自适应解析。此外,模型需在保持82.4基准精度的同时,平衡16,384令牌的上下文理解与8,192输出令牌的生成效率,这对GPU内存管理与批量处理策略提出严峻考验。
常用场景
经典使用场景
在文档数字化处理领域,test-olmocr2数据集通过olmOCR-2-7B模型实现了对复杂文档结构的精准解析。该数据集将图像中的文档内容转换为规范的Markdown格式,完整保留数学公式的LaTeX表达、表格的HTML结构以及多级标题等语义元素。这种处理方式特别适用于学术文献和商业报告的自动化转录,为后续的文本分析与知识提取奠定坚实基础。
实际应用
在实际应用层面,该数据集支撑的OCR技术已广泛应用于图书馆档案数字化、企业文档管理系统等领域。其输出的结构化Markdown格式可直接集成至内容管理系统,实现文档内容的智能检索与重组。特别是在教育领域,该技术能够将历史文献中的数学公式准确转换为可编辑格式,大幅提升学术资源的可利用性。
衍生相关工作
基于该数据集的技术路线,衍生出多个文档理解的重要研究方向。相关研究团队进一步优化了表格结构识别算法,发展了面向古籍文献的特化OCR模型。这些工作延续了olmOCR模型的核心思想,在保持高精度的同时扩展了对特殊字符集和历史版式的支持能力,推动了整个文档智能处理领域的技术演进。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作