uniOCR.bench-results
收藏Hugging Face2026-03-10 更新2026-03-11 收录
下载链接:
https://huggingface.co/datasets/cis-lmu/uniOCR.bench-results
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含使用PaddleOCR-VL模型对cis-lmu/uniOCR.bench数据集中的图像进行OCR处理的结果。PaddleOCR-VL是一个超紧凑的0.9B参数OCR模型,专为文档解析设计。数据集包含原始列以及新增的`markdown`列(提取的文本内容)和`inference_info`列(应用的OCR模型信息)。数据集规模为16,375个样本,处理时间为570.8分钟。处理配置包括图像列`img_plain`、输出列`markdown`、批次大小16、最大模型长度8,192 tokens等。PaddleOCR-VL支持多种任务模式,包括OCR文本提取、表格识别、公式识别和图表分析。数据集适用于OCR、文档处理和相关任务。
创建时间:
2026-03-09
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: Document Processing using PaddleOCR-VL (OCR mode)
- 数据集地址: https://huggingface.co/datasets/cis-lmu/uniOCR.bench-results
- 标签: ocr, document-processing, paddleocr-vl, uv-script, generated
数据集内容与来源
- 内容描述: 该数据集包含使用超紧凑的0.9B OCR模型PaddleOCR-VL,对源数据集中的图像进行OCR处理的结果。
- 源数据集: cis-lmu/uniOCR.bench (https://huggingface.co/datasets/cis-lmu/uniOCR.bench)
- 处理模型: PaddlePaddle/PaddleOCR-VL (https://huggingface.co/PaddlePaddle/PaddleOCR-VL)
- 任务模式:
ocr- 通用文本提取为Markdown格式 - 样本数量: 16,375
- 处理时间: 570.8 分钟
- 处理日期: 2026-03-10 14:37 UTC
处理配置详情
- 图像列:
img_plain - 输出列:
markdown - 数据集划分:
test - 批处理大小: 16
- 智能调整大小: 启用
- 最大模型长度: 8,192 个令牌
- 最大输出令牌: 4,096 个令牌
- 温度: 0.0
- GPU内存利用率: 80.0%
模型信息
PaddleOCR-VL是一个为文档解析定制的最先进的资源高效模型:
- 超紧凑: 仅0.9B参数(最小的OCR模型)
- OCR模式: 通用文本提取
- 表格模式: HTML表格识别
- 公式模式: LaTeX数学符号识别
- 图表模式: 结构化图表分析
- 多语言: 支持多种语言
- 快速: 快速初始化和推理
- 架构: 基于ERNIE-4.5(与Qwen模型架构不同)
任务模式
- OCR: 将文本内容提取为Markdown格式
- 表格识别: 将表格提取为HTML格式
- 公式识别: 将数学公式提取为LaTeX
- 图表识别: 分析和描述图表/示意图
数据集结构
数据集包含所有原始列,并新增:
markdown: 基于任务模式提取的内容inference_info: JSON列表,追踪应用于此数据集的所有OCR模型
使用方式
可通过提供的Python代码示例加载数据集并访问提取的内容。
复现方法
此数据集是使用uv-scripts/ocr (https://huggingface.co/datasets/uv-scripts/ocr) 的PaddleOCR-VL脚本生成的,具体命令见README。
性能指标
- 模型大小: 0.9B参数(OCR模型中最小的)
- 处理速度: ~0.48 张图像/秒
- 架构: NaViT视觉编码器 + ERNIE-4.5-0.3B语言模型
搜集汇总
数据集介绍

构建方式
在光学字符识别领域,数据集的质量直接影响模型性能的评估。本数据集基于源数据集cis-lmu/uniOCR.bench构建,通过PaddleOCR-VL这一超紧凑的0.9B参数模型进行批量处理。处理过程采用OCR任务模式,将图像列img_plain中的文档内容提取为Markdown格式,并保留了原始数据的所有列。生成过程中启用了智能调整大小技术,以8192个令牌作为最大模型输入长度,确保处理效率与精度之间的平衡。整个流程在GPU内存利用率为80%的条件下,耗时约570分钟,最终生成了包含16375个样本的标准化结果。
特点
该数据集的核心特征在于其生成过程的高度透明性与可追溯性。每个样本不仅包含提取的Markdown文本,还附有inference_info列,以JSON格式详细记录了应用于该数据集的所有OCR模型信息,为后续分析提供了完整的元数据支持。数据集覆盖了多种文档类型,体现了PaddleOCR-VL模型在通用文本提取任务上的能力。其超紧凑的模型架构仅包含0.9B参数,在保持处理速度约为每秒0.48张图像的同时,实现了资源的高效利用,为OCR技术的轻量化应用提供了实证基础。
使用方法
研究人员可通过Hugging Face的datasets库直接加载此数据集,指定测试分割以访问全部样本。加载后,用户可遍历样本获取markdown列中的提取内容,从而进行文本分析或模型评估。通过解析inference_info列中的JSON数据,能够追溯数据生成的具体配置与模型版本,确保实验的可复现性。该数据集适用于OCR算法比较、文档数字化流程优化以及轻量级模型性能基准测试等场景,为文档处理领域的研究提供了结构化的评估资源。
背景与挑战
背景概述
光学字符识别(OCR)技术作为文档数字化与信息提取的核心环节,长期致力于将图像中的文本内容转化为可编辑、可搜索的格式。uniOCR.bench-results数据集于2026年由慕尼黑大学(LMU)计算与信息科学系(cis)的研究团队构建,其依托于源数据集uniOCR.bench,并采用PaddleOCR-VL这一超紧凑的0.9B参数模型进行批量处理。该数据集的核心研究问题聚焦于评估轻量级视觉-语言模型在通用文本提取任务上的性能与效率,旨在推动资源受限环境下的高效文档解析技术发展,为多模态信息处理领域的模型优化与基准测试提供了重要的实证数据支撑。
当前挑战
在文档图像文本提取这一领域,核心挑战在于模型需精准处理多样化的版面布局、复杂的字体样式、多语言混排以及低质量图像下的字符识别。uniOCR.bench-results数据集的构建过程同样面临诸多技术难题:其一,处理大规模图像样本(共16,375个)需平衡计算效率与识别精度,长达570.8分钟的处理时间凸显了效率优化的迫切性;其二,配置超参数如最大模型长度(8,192令牌)与输出令牌数(4,096)需谨慎权衡,以确保长文档内容的完整性不被截断;其三,在有限GPU内存利用率(80%)约束下部署轻量模型,对资源调度与批处理策略提出了更高要求。
常用场景
经典使用场景
在文档图像处理领域,uniOCR.bench-results数据集为光学字符识别(OCR)技术的评估与优化提供了关键基准。该数据集通过PaddleOCR-VL模型对原始图像进行文本提取,生成结构化Markdown格式的输出,广泛应用于OCR模型的性能对比、错误分析以及多语言文本识别能力的系统性评测。研究者可借助此数据集,深入探究模型在不同文档类型、复杂布局及噪声环境下的鲁棒性,从而推动OCR技术向更高精度与效率迈进。
实际应用
在实际应用层面,uniOCR.bench-results数据集支撑了众多产业场景的智能化升级。其生成的精准文本提取结果可直接服务于档案数字化、金融票据处理、法律文书分析以及教育资料电子化等关键领域。通过提供高质量的机器可读文本,该数据集赋能自动化办公系统、内容管理系统以及知识图谱构建流程,大幅降低了人工录入成本,提升了信息检索与数据挖掘的效率,为数字化转型提供了可靠的技术底层。
衍生相关工作
围绕该数据集,学术界与工业界已衍生出一系列经典研究工作。这些工作主要聚焦于基于基准结果的OCR模型增强,例如开发针对复杂表格、数学公式或图表结构的专用识别模块。部分研究利用该数据集的评估结论,推动了轻量化OCR架构的设计与多模态文档理解模型的迭代。此外,数据集亦常被用作预训练或微调的数据源,促进了文档智能领域跨任务迁移学习范式的探索与发展。
以上内容由遇见数据集搜集并总结生成



