LightOnOCR-bbox-bench

Hugging Face2026-01-23 更新2026-01-24 收录

下载链接：

https://huggingface.co/datasets/lightonai/LightOnOCR-bbox-bench

下载链接

链接失效反馈

官方服务：

资源简介：

LightOnOCR-bbox-bench是一个评估视觉语言模型（VLMs）在文档中定位图像能力的基准数据集。该数据集在论文《LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR》中提出。任务描述为：给定一个文档页面（PDF），模型必须预测文档中图像（如图表、照片等）的边界框。每个样本包含1-5个需要定位的图像，边界框坐标归一化到0-1000的空间。数据集包含两个子集：arxiv（565个科学论文样本）和olmocr_bench（290个多样化文档样本）。

创建时间：

2026-01-19

原始信息汇总

LightOnOCR-bbox-bench 数据集概述

数据集简介

LightOnOCR-bbox-bench 是一个用于评估视觉语言模型在文档中定位图像能力的基准数据集。该数据集在论文《LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR》中被提出。

任务描述

给定一个文档页面（PDF），模型需要预测文档中图像（如图表、照片等）的边界框。此任务评估模型的空间理解能力以及在复杂文档布局中区分视觉内容与文本的能力。每个样本包含1-5个需要定位的图像，其真实边界框坐标被归一化到0-1000的坐标空间。

数据集结构

数据划分

arxiv：包含565个来自科学论文的样本。
olmocr_bench：包含290个来自多样化文档类型的样本。

数据列

bboxes：边界框列表，格式为 [x1, y1, x2, y2]，坐标已归一化到0-1000空间。
pdf：单页PDF文件，以字节形式存储。

数据集构成

ArXiv 子集（565个样本）

来源：arXiv的科学论文。
内容：包含图表、示意图等的科学论文。
标注：使用nvpdftex工具包自动标注。
筛选：每页包含1-5个图像。

OlmOCR 子集（290个样本）

来源：源自 allenai/olmOCR-bench 数据集。
内容：多样化文档类型，包括数学论文、表格、多栏布局和历史扫描件。
筛选：每页包含1-5个图像，并排除了仅包含徽标的样本。

使用方式

可通过 datasets 库加载数据集。加载后，可访问样本的 bboxes 和 pdf 字段。需要将归一化的边界框坐标（0-1000）根据渲染后的图像尺寸转换为像素坐标。

引用信息

如果使用此数据集，请引用以下论文： bibtex @misc{lightonocr2_2026, title = {LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR}, author = {Said Taghadouini and Adrien Cavaill`{e}s and Baptiste Aubertin}, year = {2026}, howpublished = {url{https://arxiv.org/pdf/2601.14251}} }

元数据

支持语言：英语（en）、法语（fr）。
许可证：Apache 2.0。
规模类别：n<1K。
任务类别：目标检测、图像到文本。

搜集汇总

数据集介绍

构建方式

在文档分析与视觉语言模型评估领域，LightOnOCR-bbox-bench数据集的构建体现了严谨的工程流程。该数据集从两个主要来源汇集样本：arXiv科学论文子集包含565个页面，通过nvpdftex工具包自动标注图像边界框；OlmOCR子集则源自allenai/olmOCR-bench，涵盖290个多样化文档类型，包括数学论文、表格及历史扫描件。所有样本均经过筛选，确保每页包含1至5幅图像，并排除仅含徽标的页面，最终将边界框坐标归一化至0-1000的标准空间，形成结构化的评估基准。

特点

该数据集的核心特征在于其专注于文档内图像定位的评估任务，为视觉语言模型的空间理解能力提供标准化测试平台。数据集划分为arxiv与olmocr_bench两个子集，分别代表学术文献与多样文档布局，覆盖了从科学图表到复杂版式的广泛场景。每个样本以单页PDF字节流形式存储，并附带归一化坐标的边界框标注，这种设计既保留了文档的原始视觉信息，又为模型输出提供了精确的空间参照系。

使用方法

使用该数据集时，研究者可通过Hugging Face的datasets库直接加载，并访问arxiv或olmocr_bench子集。每个样本提供PDF字节数据及对应的归一化边界框列表，用户需自行将PDF渲染为图像，并根据图像尺寸将归一化坐标转换为像素坐标。这一流程支持对模型定位性能的定量评估，适用于检验视觉语言模型在复杂文档中区分图像与文本的能力，为OCR与文档理解研究提供关键基准。

背景与挑战

背景概述

在文档理解与光学字符识别领域，精准定位文档中的视觉元素是提升信息提取质量的关键环节。LightOnOCR-bbox-bench数据集由LightOn AI研究团队于2026年提出，旨在评估视觉语言模型在复杂文档布局中定位图像边界框的能力。该数据集聚焦于科学文献与多样化文档类型，通过提供标准化的坐标标注，为模型的空间理解与视觉-文本分离性能建立了量化基准，推动了端到端多语言OCR技术的发展，对文档智能处理研究具有显著的促进作用。

当前挑战

该数据集致力于解决文档图像定位任务中的核心挑战，即模型需在多变布局（如多栏排版、历史扫描件）中准确区分图像与文本区域，并实现高精度边界框回归。构建过程中，研究团队面临自动标注的可靠性问题，需利用nvpdftex等工具处理科学论文的复杂结构，同时从异构源数据中筛选有效样本，排除仅含徽标等干扰项，确保标注一致性与数据多样性之间的平衡。

常用场景

经典使用场景

在文档理解与视觉语言模型评估领域，LightOnOCR-bbox-bench数据集被广泛用于评测模型在复杂文档布局中定位图像的能力。该数据集通过提供包含科学论文与多样化文档的单页PDF样本，要求模型精确预测图像（如图表、照片）的边界框，从而检验模型对文档空间结构的理解以及视觉与文本内容的区分精度。这一场景直接支撑了端到端OCR模型在真实文档处理任务中的性能验证。

实际应用

在实际应用中，LightOnOCR-bbox-bench数据集支撑了自动化文档处理系统的开发与优化。例如，在学术出版、数字图书馆及企业文档管理场景中，系统需要准确提取文档内的图像元素以进行内容索引、格式转换或无障碍访问。该数据集通过提供标准化边界框标注，使得模型能够训练并评估在真实复杂文档中定位图像的性能，从而提升OCR工具在多样化文档类型上的鲁棒性与准确性，满足工业级文档处理需求。

衍生相关工作

围绕LightOnOCR-bbox-bench数据集，衍生了一系列专注于文档图像定位与视觉语言模型优化的经典研究工作。这些工作不仅扩展了数据集的适用范围，例如通过增强对历史文档或手写材料的支持，还催生了新的模型架构，如端到端的多语言OCR模型LightOnOCR。同时，该数据集促进了与通用文档理解基准（如DocVQA、PubLayNet）的对比研究，推动了文档分析领域在空间感知与跨模态融合方面的理论进展与技术迭代。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集