five

OCR-Rotation-Bench (ORB)

收藏
arXiv2025-11-06 更新2025-11-08 收录
下载链接:
https://wikisource.org
下载链接
链接失效反馈
官方服务:
资源简介:
OCR-Rotation-Bench (ORB) 是一个用于评估 OCR 系统对图像旋转鲁棒性的新基准。它由两部分组成:(i) ORB-En,由旋转变换的英文 OCR 数据集构建,(ii) ORB-Indic,一个包含 11 种印度语中等至低资源语言的文档图像数据集。ORB-En 包含 347 个旋转后的真实世界扫描文档图像,而 ORB-Indic 包含 328 个真实世界文档图像,这些图像均匀分布在 11 种印度语和四种标准旋转角度中。数据集从 Wikisource 网站的高质量文档文本对中获取,确保了文本的准确性和图像的高分辨率。
提供机构:
Krutrim AI, Bangalore, India
创建时间:
2025-11-06
搜集汇总
数据集介绍
main_image_url
构建方式
在文档智能处理领域,ORB数据集的构建采用了多源融合策略。英语子集ORB-En整合了SROIE 2019的真实扫描文档和SynthDog的合成文档,通过系统性的四向旋转变换(0°、90°、180°、270°)模拟实际场景中的方向偏差。多语言子集ORB-Indic则从Wikisource开源知识库中精选11种印度语言文档,采用定制化网络爬虫技术提取高分辨率图像与对应OCR文本,并经过人工校验确保图像-文本对齐质量,最终形成包含328个样本的平衡数据集。
特点
该数据集展现出显著的跨语言覆盖能力与实用导向特性。其核心价值在于同时涵盖拉丁文字与11种印度文字体系,包括印地语、孟加拉语等中低资源语言,填补了多语言旋转鲁棒性评估的空白。数据集设计严格遵循四向旋转分类标准,每个旋转类别均保持均衡分布,有效避免了方向偏差对模型评估的影响。特别值得注意的是,ORB-Indic子集所有样本均来自真实场景的数字化文献,具有丰富的版式多样性和真实的图像退化特征。
使用方法
在光学字符识别研究实践中,该数据集主要服务于旋转校正模块的评估与优化。研究人员可将其作为预处理阶段的基准测试工具,通过对比模型在旋转图像与校正后图像上的OCR性能差异,量化方向校正对下游任务的影响。典型工作流程包括:首先利用数据集训练轻量级旋转分类器,随后将校正后的图像输入各类OCR引擎,最终通过字段级准确率、ANLS相似度等指标综合评估系统性能。这种模块化评估框架特别适用于分析传统OCR系统与现代视觉语言模型在方向鲁棒性方面的表现差异。
背景与挑战
背景概述
OCR-Rotation-Bench (ORB) 数据集由 Krutrim AI 与 OLA Electric 的研究团队于 2025 年联合提出,旨在解决文档图像旋转对光学字符识别(OCR)系统性能的负面影响。该数据集聚焦于多语言环境下的文档方向检测问题,通过构建包含英语及 11 种印度语言的大规模标注数据,填补了现有基准在旋转鲁棒性评估方面的空白。ORB 的推出显著推动了文档智能领域的发展,为实际应用中因移动设备拍摄或扫描导致的文档错位问题提供了标准化评估框架。
当前挑战
ORB 数据集主要应对两大挑战:在领域问题层面,它致力于解决旋转图像对 OCR 准确性的严重干扰,例如文本重复与幻觉错误,通过四向旋转分类提升模型在真实场景中的泛化能力;在构建过程中,面临多语言数据采集与标注的复杂性,需从 Wikisource 等开放资源中筛选高质量文档,并确保 11 种印度语言的文本与图像对齐,同时克服合成数据与真实数据间的分布差异问题。
常用场景
经典使用场景
在文档智能处理领域,OCR-Rotation-Bench(ORB)数据集主要应用于评估光学字符识别系统对图像旋转的鲁棒性。该数据集通过构建包含四种标准旋转角度的文档图像集合,为研究者提供了系统测试OCR模型在真实场景中处理方向错乱文档的能力。其典型使用方式包括在预处理阶段集成旋转校正模块,通过分类网络将倾斜文档归正至标准方向,从而显著提升下游OCR任务的准确率。
实际应用
在实际应用层面,ORB数据集支撑的旋转校正技术已广泛应用于移动端文档扫描、批量文档数字化等场景。当用户通过手机拍摄发票、合同或身份证件时,经常会产生90°或180°的方向偏差。基于ORB训练的轻量级分类模型能够实时检测并校正文档方向,确保后续OCR引擎获得最佳输入。该技术特别适用于银行、保险等行业的自动化单据处理流程,显著降低了人工校正成本。
衍生相关工作
围绕ORB数据集衍生出多项重要研究工作,包括基于Phi-3.5视觉编码器的轻量级旋转分类架构、动态裁剪策略优化以及多语言OCR性能评测框架。这些工作进一步推动了文档方向检测与校正技术的发展,例如将四向分类扩展至任意角度检测,结合布局分析提升复杂文档的校正精度。相关技术方案已被集成到DocOwl、DocLLM等最新文档理解系统中,形成了完整的文档预处理技术生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作