five

ocr_rotation_bench

收藏
Hugging Face2026-02-24 更新2026-02-25 收录
下载链接:
https://huggingface.co/datasets/krutrim-ai-labs/ocr_rotation_bench
下载链接
链接失效反馈
官方服务:
资源简介:
ORB旋转基准数据集是一个结构化多领域数据集,旨在评估文档方向检测模型及其对下游OCR性能的影响。与以往假设文档方向正确的数据集不同,该基准在英语和印度语言文档数据集中明确引入了受控旋转设置(4类、8类和12类配置),从而能够系统评估旋转分类准确性和OCR鲁棒性。数据集包含多个子集,对应不同的语言设置和旋转粒度。每个数据项包含文档图像、旋转角度标签(整数度)和OCR真实文本(如可用)。旋转设置包括4类(0°、90°、180°、270°)、8类(均匀间隔旋转)和12类(更细粒度的旋转分类)。数据集适用于文档方向检测研究、OCR鲁棒性评估、视觉语言模型基准测试、多语言文档理解和角度性能分析等任务。
创建时间:
2026-02-24
搜集汇总
数据集介绍
main_image_url
构建方式
在文档图像处理领域,构建高质量的基准数据集对于评估模型性能至关重要。ORB旋转基准数据集通过精心设计的流程构建而成,其核心在于对多语言文档图像施加可控的旋转变换。该数据集整合了SROIE英文收据数据集与合成文档数据,并涵盖了包括英语、印地语、孟加拉语在内的多种印度语言文档。构建过程中,研究人员为每张图像生成了精确的旋转角度标签,形成了4类、8类和12类三种不同粒度的旋转分类配置,同时为多数样本提供了OCR真值文本,从而系统地创建了一个用于评估文档方向检测与OCR鲁棒性的结构化多领域基准。
特点
该数据集在文档方向检测研究领域展现出鲜明的特色。其最显著的特征在于引入了多粒度、受控的旋转设置,突破了传统文档数据集默认图像方向正确的局限,为模型评估提供了更严谨的基准。数据集覆盖了英语与多种印度语言,体现了对多语言场景的考量。结构上,它被划分为多个子集,每个子集对应特定的语言和旋转类别组合,例如`orb_indic_8_class`子集便专门用于印度语言文档的八方向精细评估。这种设计使得研究者能够深入分析旋转分类精度、校正前后OCR性能的变化以及跨语言的模型表现。
使用方法
对于致力于文档分析与OCR技术的研究者而言,该数据集提供了清晰的使用路径。用户可通过Hugging Face的`datasets`库便捷地加载特定子集,例如加载`orb_en_4_class_sroie`子集以进行四方向旋转分类实验。数据集的核心应用场景包括评估文档方向检测模型的分类准确率,以及量化旋转校正对下游OCR任务性能(通过字错误率等指标衡量)的影响。研究者可遵循配套论文中详述的评估流程,进行角度层面的错误分析、跨语言性能比较,并将其作为基准来评测各类视觉语言模型在文档理解任务上的鲁棒性。
背景与挑战
背景概述
文档图像处理领域长期面临方向错乱导致的OCR性能下降问题,传统数据集多预设图像已正确朝向,限制了方向检测模型的系统评估。为此,研究团队于2025年提出了ORB旋转基准数据集,该数据集由Krutrim AI实验室等机构的研究人员构建,核心在于解决多语言文档在任意旋转下的方向分类与OCR鲁棒性挑战。通过引入可控的旋转配置,该数据集为文档方向检测算法提供了结构化评估框架,显著推动了多语言文档理解与视觉语言模型基准测试的发展。
当前挑战
该数据集旨在应对文档方向检测这一具体领域问题,其挑战在于模型需准确识别多语言、多领域文档在精细旋转角度下的朝向,并评估校正对下游OCR任务的影响。构建过程中的挑战则体现在数据采集与标注的复杂性上,需协调英语与多种印度语言文档,并系统生成4类、8类及12类旋转标签,同时确保OCR真值文本的可用性与质量,以支持角度级错误分析与跨语言性能比较。
常用场景
经典使用场景
在文档图像处理领域,ORB旋转基准数据集为评估文档方向检测模型提供了结构化多域测试平台。该数据集通过引入可控旋转设置,涵盖4类、8类及12类旋转配置,支持系统化评估旋转分类精度及其对下游OCR性能的影响。研究者可基于此基准,在英语及印度语系文档上开展旋转分类基准测试,分析角度误差,并评估旋转校正前后OCR的稳健性,从而推动文档方向检测技术的标准化进程。
解决学术问题
该数据集有效解决了文档图像分析中因方向错位导致的OCR性能下降问题。通过提供多语言、多旋转粒度的标注数据,它支持系统研究旋转分类模型的泛化能力与鲁棒性,填补了以往数据集假定正确方向的空白。其意义在于建立了可重复的评估协议,使研究者能够量化旋转校正对OCR错误率的影响,为文档理解领域的模型优化与比较提供了可靠基准。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在文档方向检测与OCR协同优化领域。例如,原论文《Seeing Straight: Document Orientation Detection for Efficient OCR》提出了完整的评估流程,启发了后续关于多粒度旋转分类、跨语言泛化以及视觉-语言模型在方向感知任务中的性能探索。这些工作进一步拓展了数据集的用途,推动了文档图像分析在鲁棒性、多语言支持及端到端系统设计方面的学术进展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作