KITAB-Bench
收藏arXiv2025-02-21 更新2025-02-25 收录
下载链接:
https://mbzuai-oryx.github.io/KITAB-Bench/
下载链接
链接失效反馈官方服务:
资源简介:
KITAB-Bench是一个全面的阿拉伯OCR基准测试,由MBZUAI创建。该数据集包含8,809个样本,跨越9个主要领域和36个子领域,涵盖了多种文档类型,包括手写文本、结构化表格和针对商业智能的21种图表类型。数据集结合了来自现有数据集的精心挑选的样本、手动注释的PDFs以及通过LLM辅助管道生成的合成内容。该基准测试旨在为现代OCR系统提供严格的评估框架,并推动阿拉伯文档分析方法的改进。
KITAB-Bench is a comprehensive Arabic OCR benchmark created by MBZUAI. This dataset contains 8,809 samples spanning 9 major domains and 36 sub-domains, covering diverse document types including handwritten text, structured tables, and 21 types of charts for business intelligence. The dataset combines carefully selected samples from existing datasets, manually annotated PDFs, and synthetic content generated via LLM-augmented pipelines. This benchmark aims to provide a rigorous evaluation framework for modern OCR systems and drive advancements in Arabic document analysis methods.
提供机构:
MBZUAI
创建时间:
2025-02-21
搜集汇总
数据集介绍

构建方式
KITAB-Bench的构建方式是多元化和综合性的,涵盖了从现有阿拉伯文档数据集中精选的样本、手动收集和标注的PDF文件,以及通过五阶段LLM辅助人工循环流程生成的多样化补充内容。该数据集的构建过程旨在确保样本的多样性和复杂性,以全面反映真实世界的文档处理挑战,并为阿拉伯文档理解任务提供一个稳健的基准。
特点
KITAB-Bench数据集的特点在于其全面性和多样性。它包含了从9个主要领域和36个子领域收集的8,809个样本,涵盖了包括手写文本、结构化表格和21种图表类型在内的各种文档类型。数据集不仅包含了历史文献、手写文本收藏、场景文本和布局分析等手动标注的数据,还包括了通过LLM辅助生成的合成内容,如图表、图表到数据框、表格到CSV/HTML和VQA任务。这些特点使得KITAB-Bench成为评估阿拉伯OCR系统性能的理想平台。
使用方法
使用KITAB-Bench数据集的方法包括对现有OCR系统和最先进的视觉语言模型(VLMs)进行评估,以了解它们在不同阿拉伯和多种语言文档理解任务中的能力。评估框架包括九个专门的任务,旨在评估OCR系统的不同方面,包括布局检测、内容提取和语义推理。每个任务都使用特定的指标进行评估,以确保系统的全面评估。此外,KITAB-Bench还提供了一个标准化的框架,用于比较阿拉伯OCR系统,为未来的研究和开发提供便利。
背景与挑战
背景概述
随着文档处理中检索增强生成(RAG)技术的日益普及,鲁棒的文本识别对于知识提取变得至关重要。虽然英语和其他语言的OCR(光学字符识别)受益于大型数据集和成熟的基准测试,但阿拉伯OCR面临着独特的挑战,由于其草书脚本、从右到左的文本流以及复杂的排版和书法特征。我们介绍了KITAB-Bench,这是一个全面的阿拉伯OCR基准,填补了当前评估系统的空白。我们的基准包括9个主要领域和36个子领域的8,809个样本,涵盖了包括手写文本、结构化表格以及针对业务智能的21种图表类型的专用覆盖范围。我们的研究结果表明,现代视觉语言模型(如GPT-4、Gemini和Qwen)在字符错误率(CER)方面平均比传统OCR方法(如EasyOCR、PaddleOCR和Surya)高出60%。此外,我们还指出了当前阿拉伯OCR模型在PDF转换为Markdown方面的重大局限性,其中表现最好的模型Gemini-2.0-Flash的准确率仅为65%。这突出了准确识别阿拉伯文本的挑战,包括复杂字体、数字识别错误、单词拉长和表格结构检测等问题。这项工作建立了一个严格的评估框架,可以推动阿拉伯文档分析方法改进,并缩小与英语OCR技术的性能差距。
当前挑战
KITAB-Bench数据集当前面临的挑战主要包括:1)所解决的领域问题(例如:ImageNet数据集解决的领域问题是图像分类)的挑战;2)构建过程中所遇到的挑战。具体来说,阿拉伯OCR面临的主要挑战包括其草书脚本、从右到左的文本流以及复杂的排版和书法特征。此外,现有的阿拉伯OCR数据集(如表1所示)主要关注手写文本,而KITAB-Bench则涵盖了多种文档类型和识别任务,旨在提供一个更全面的评估框架。然而,当前阿拉伯OCR模型在PDF转换为Markdown、表格解析、字体检测和数字识别等方面仍存在重大局限性。为了改进这些方面,未来需要进一步的数据集扩展、新型评估指标、深度学习优化和跨语言OCR创新。
常用场景
经典使用场景
KITAB-Bench 作为一项全面的阿拉伯 OCR 基准测试,涵盖了多种文档类型和识别任务。它主要用于评估和比较阿拉伯 OCR 系统的性能,包括布局检测、多格式识别和结构化输出生成等方面。该数据集可以用于训练和评估 OCR 系统在阿拉伯文档处理和分析方面的能力。
衍生相关工作
KITAB-Bench 衍生了相关的经典工作,包括 CharTeX 和 CODM 等评估指标。这些指标用于评估图表提取和图提取的准确性,为阿拉伯文档理解任务的评估提供了新的思路和方法。此外,该数据集还可以用于开发阿拉伯 OCR 系统,从而推动阿拉伯文档分析方法的创新和发展。
数据集最近研究
最新研究方向
随着文档处理中检索增强生成(RAG)的日益普及,对文本识别的鲁棒性要求越来越高。尽管英语和其他语言的OCR(光学字符识别)受益于大型数据集和成熟的基准测试,但阿拉伯语OCR由于其草书脚本、从右到左的文本流和复杂的排印和书法特征而面临着独特的挑战。KITAB-Bench是一个全面的阿拉伯语OCR基准测试,旨在填补当前评估系统的空白。该基准包括来自9个主要领域和36个子领域的8,809个样本,涵盖了各种文档类型,包括手写文本、结构化表格和对21种图表类型的业务智能专业覆盖。研究发现,现代视觉语言模型(如GPT-4、Gemini和Qwen)在字符错误率(CER)方面平均比传统OCR方法(如EasyOCR、PaddleOCR和Surya)高60%。此外,我们强调了当前阿拉伯语OCR模型在PDF转换为Markdown方面的重大局限性,其中表现最好的模型Gemini-2.0-Flash仅达到65%的准确率。这突出了准确识别阿拉伯语文本的挑战,包括复杂字体、数字识别错误、单词扩展和表格结构检测等问题。这项工作建立了一个严格的评估框架,可以推动阿拉伯语文档分析方法改进,并缩小与英语OCR技术的性能差距。
相关研究论文
- 1KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document UnderstandingMBZUAI · 2025年
以上内容由遇见数据集搜集并总结生成



