uv-scripts/ocr
收藏Hugging Face2026-05-08 更新2025-08-09 收录
下载链接:
https://hf-mirror.com/datasets/uv-scripts/ocr
下载链接
链接失效反馈官方服务:
资源简介:
OCR UV Scripts是一组即插即用的OCR脚本,用于从HuggingFace数据集中提取文本。这些脚本包括RolmOCR、Nanonets OCR、SmolDocling和NuMarkdown,每个脚本都有其特定的功能和优势,如快速提取文本、处理复杂的文档结构、提取数学公式和表格等。
OCR UV Scripts are a set of ready-to-use OCR scripts designed for extracting text from HuggingFace datasets. These scripts include RolmOCR, Nanonets OCR, SmolDocling, and NuMarkdown, each with its specific features and advantages such as fast text extraction, handling complex document structures, extracting mathematical formulas and tables, etc.
提供机构:
uv-scripts
搜集汇总
数据集介绍

构建方式
该数据集属于uv-scripts系列,旨在提供即用型机器学习工具,无需用户自备GPU即可运行OCR任务。其构建方式基于HuggingFace Jobs与UV包管理器的深度集成,用户通过简单的命令行调用即可从HuggingFace数据集仓库中读取图像数据,调用预训练的视觉语言模型进行文本提取,并将结果以Markdown格式写入新的数据集中。数据集内置了20个针对不同OCR模型的脚本,以及一个独立的布局检测脚本,模型范围从0.3B到8B参数不等,覆盖了从轻量级快速推理到高精度复杂文档解析的多种场景。每个脚本均封装了模型特定的默认参数,如批次大小、上下文长度和温度系数,同时允许用户通过命令行标志进行灵活覆盖。
特点
该数据集的核心特点在于其极致的易用性与丰富的模型生态。用户无需进行繁琐的环境配置或模型下载,仅需一条命令即可在云端GPU上完成OCR推理。数据集提供了从轻量级模型(如Falcon-OCR的0.3B参数)到高性能模型(如NuMarkdown的8B参数)的广泛选择,覆盖了通用文本提取、表格识别、公式解析、图表分析、印章识别等多种任务模式。部分模型如DeepSeek-OCR和dots.mocr支持多分辨率与多提示模式,允许用户在速度与质量间灵活权衡。此外,数据集还包含一个独立的布局检测脚本,用于输出目标区域的边界框与类别标签,为下游的文档分析与数据预处理提供了有力支持。
使用方法
数据集的使用流程极为简洁,核心命令格式为`hf jobs uv run --flavor [GPU类型] --secrets HF_TOKEN [脚本URL] [输入数据集] [输出数据集] [选项]`。用户需在HuggingFace平台上拥有有效的访问令牌,并指定输入数据集中包含图像列的拆分。所有脚本共享一组通用选项,包括指定图像列名、输出列名、数据集拆分、样本数量限制、隐私设置、随机打乱以及批次大小等。模型特定的参数(如任务模式、分辨率、提示模式)则通过各脚本独有的标志进行配置。对于大规模处理,数据集支持通过`hf://buckets/...` URI进行增量式parquet分片写入,实现可中断恢复的批量处理。用户可通过`--help`标志随时查看每个脚本的完整参数列表。
背景与挑战
背景概述
光学字符识别(OCR)技术作为连接物理世界与数字信息的桥梁,在文档数字化、自动化数据处理及多模态智能系统中扮演着核心角色。由HuggingFace社区uv-scripts项目组于2024年创建的ocr数据集,汇聚了从0.3B至8B参数规模的21种主流视觉语言模型脚本,旨在解决复杂文档(如多栏排版、表格、公式、印章等)的精准文本提取与版面解析问题。该数据集依托OmniDocBench、olmOCR-Bench等权威基准,提供了包括GLM-OCR(94.62%准确率)、DeepSeek-OCR、PaddleOCR-VL在内的多样化方案,覆盖超100种语言,并通过vLLM、Transformers等高效后端实现极速推理,显著降低了OCR任务的应用门槛,对文档智能处理领域产生了深远影响。
当前挑战
当前OCR领域面临的核心挑战在于应对极端复杂的文档多样性:例如,多栏混合排版、手写体与印刷体交织、非标准表格结构、数学公式及图表中的语义重建,以及低分辨率或倾斜文档的鲁棒识别。该数据集构建过程中亦遭遇瓶颈,包括需在模型精度与推理速度间寻找平衡(如LightOnOCR v2虽速度快7倍但需更优的强化学习训练策略),同时确保跨语言泛化能力与多任务模式(OCR/表格/公式/图表/印章)之间的无缝切换。此外,大规模数据处理时,如何高效管理增量式parquet分片、实现断点续传与私有化存储,以及应对不同硬件(如L4x1与A100)下的显存优化,构成了工程部署层面的严峻挑战。
常用场景
经典使用场景
在文档智能处理与光学字符识别领域,该数据集的核心价值在于为视觉语言模型提供了一套即开即用的标准化评估与部署流水线。其经典使用场景涵盖从轻量级文本提取到复杂版面解析的完整链路:研究人员可便捷地调用Falcon-OCR、GLM-OCR等不同参数量级的预训练模型,对多栏文档、表格、公式及印章等异构内容进行端到端的Markdown格式转录,同时通过PP-DocLayout等布局检测脚本完成文本区域、标题、图表等语义单元的边界框定位,形成'版面解析—文本识别—结构化输出'的标准化处理范式。
解决学术问题
该数据集系统性地回应了文档智能领域的三大核心学术挑战:其一,解决了多模态模型中视觉编码与语言解码的协同优化难题,通过集成Multi-Token Prediction与强化学习训练策略(如GLM-OCR采用的MTP损失与RL算法),在OmniDocBench基准上将单模型精度推至94.62%的业界领先水平;其二,破解了轻量化模型在复杂版面场景下的精度瓶颈,以仅0.9B参数的PaddleOCR-VL系列实现94.5%的优异表现,为资源受限场景下的高效部署提供了理论验证;其三,构建了从纯文本OCR到SVG矢量图生成、六种任务模式的统一框架,推动了文档理解任务的形式化统一。
衍生相关工作
围绕该数据集提供的标准化评估框架,学术界已衍生出多项具有代表性的系统性研究工作。LightOnOCR系列通过RLVR训练策略将推理速度提升至42.8页/秒,并在OlmOCR-Bench上以7B以下模型取得83.2%的准确率;DeepSeek-OCR团队提出的视觉-文本压缩机制配合五种分辨率模式,实现了精度与效率的动态平衡;国内研究机构如百度发布的Qianfan-OCR以布局感知联合解码策略在OmniDocBench上登顶;SVG生成方向,dots.mocr将OCR从文本提取拓展至图形化代码输出,开辟了文档理解与计算机图形学的交叉研究新范式。
以上内容由遇见数据集搜集并总结生成



