KITAB-Bench

github2025-03-02 更新2025-02-25 收录

下载链接：

https://github.com/mbzuai-oryx/KITAB-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

KITAB-Bench是一个全面的阿拉伯OCR基准，用于评估传统OCR、视觉语言模型(VLMs)和专用AI系统在阿拉伯文本识别方面的性能。

KITAB-Bench is a comprehensive Arabic OCR benchmark for evaluating the performance of traditional OCR systems, vision-language models (VLMs) and specialized AI systems in Arabic text recognition.

创建时间：

2025-02-20

原始信息汇总

KITAB-Bench: 阿拉伯OCR和文档理解综合基准

Overview

随着🔍光学字符识别（OCR）在文档处理中📈 Retrieval-Augmented Generation (RAG)技术的日益普及，强大的阿拉伯OCR对于知识提取至关重要。阿拉伯OCR面临的挑战包括：

✍️ 书法脚本和🏷️从右到左的文本流。
🖋️ 复杂的版面设计和书法变体。
📊 表格、图表和图形密集型文档。

我们介绍了📚 KITAB-Bench，一个全面的阿拉伯OCR基准，用于评估🤖传统OCR、视觉语言模型（VLMs）和专用AI系统的性能。

Key Highlights

✅ 9个主要领域和36个子领域的📄 8,809个样本。
✅ 📜多样化的文档类型：PDFs、手写文本、结构化表格、金融和法律报告。
✅ 强大的基线：与Tesseract、GPT-4o、Gemini、Qwen等进行基准测试。
✅ 在OCR、布局检测、表格识别、图表提取和PDF转换方面的评估。
✅ 新的评价指标：Markdown Recognition (MARS)、Table Edit Distance (TEDS)、Chart Data Extraction (SCRM)。

🚀 KITAB-Bench为阿拉伯OCR评估设定了新的标准，使文档理解更加准确、高效和智能！📖✨

Dataset Overview

KITAB-Bench涵盖了广泛的文档类型：

领域	总样本数
PDF-to-Markdown	33
布局检测	2,100
行识别	378
表格识别	456
图表转DataFrame	576
图表转JSON	226
视觉问答（VQA）	902
总计	8,809

📌 提供高质量的人工标注，确保公平评估。

Domains

taxonomy

Benchmark Tasks

KITAB-Bench评估了9个关键的OCR和文档处理任务：

1️⃣ 文本识别（OCR） - 打印和手写阿拉伯OCR。 2️⃣ 布局检测 - 提取文本块、表格、图形等。 3️⃣ 行检测与识别 - 识别并准确识别单个阿拉伯文本行。 4️⃣ 行识别 - 准确识别单个阿拉伯文本行。 5️⃣ 表格识别 - 将结构化表格解析为机器可读格式。 6️⃣ PDF转Markdown - 将阿拉伯PDF转换为结构化Markdown格式。 7️⃣ 图表转DataFrame - 提取21种类型的图表到结构化数据集。 8️⃣ 图表转JSON - 提取流程图、维恩图、网络到JSON。 9️⃣ 视觉问答（VQA） - 理解关于阿拉伯文档的问题。

Evaluation Metrics

为了准确评估OCR模型，KITAB-Bench引入了新的阿拉伯OCR评价度量：

指标	目的
字符错误率（CER）	测量识别字符的准确性。
单词错误率（WER）	评估单词级OCR准确性。
MARS（Markdown Recognition Score）	评估PDF-to-Markdown转换的准确性。
TEDS（Tree Edit Distance Score）	测量表格提取的正确性。
SCRM（Chart Representation Metric）	评估图表数据转换。
CODM（Code-Oriented Diagram Metric）	评估图表到JSON提取的准确性。

📌 KITAB-Bench确保在阿拉伯文档处理的多个维度上进行严格的评估。

Performance Results

具体性能结果和图表将在此部分展示。

Installation & Usage

使用KITAB-Bench的步骤如下：

1️⃣ 克隆仓库 bash git clone https://github.com/mbzuai-oryx/KITAB-Bench.git cd KITAB-Bench

2️⃣ 布局评估 bash cd layout-eval pip3 install -r requirements.txt

在BCE Layout数据集上评估单个模型（RT-DETR, Surya, 或 YOLO）

python rt_detr_bcelayout.py python test_surya_bce_layout.py python yolo_doc_bcelayout.py

在DocLayNet数据集上评估单个模型

python rt_detr_doclayout.py python test_surya_doclaynet.py python yolo_doc_doclayout.py

一次性评估所有模型

python evaluate_all.py

3️⃣ VQA评估 bash cd vqa-eval pip3️⃣ VQA评估 bash cd vqa-eval pip3 install -r requirements.txt python3 eval.py --model_name qwen2_vl # 获取预测结果 python3 metrics.py --model_name qwen2_vl # 获取准确匹配率

4️⃣ 表格评估 bash cd tables-eval pip3 install -r requirements.txt python3 eval.py --model_name qwen2_vl # 获取预测结果 python3 metrics.py --model_name qwen2_vl # 获取TEDS和Jaccord指数准确性

5️⃣ 行检测与识别评估 bash cd lines-eval pip3 install -r requirements.txt python3 eval.py --model_name easyocr # 获取预测结果 python3 metric.py --model_name easyocr # 获取mAP和CER分数

6️⃣ OCR评估 bash cd ocr-eval pip3 install -r requirements.txt python3 eval.py --model_name easyocr # 获取预测结果 python3 metrics.py --model_name easyocr # 获取CER、WER、BLEU、chrF和METEOR分数

7️⃣ PDF转Markdown评估 bash cd pdfs-eval pip3 install -r requirements.txt python3 eval.py --model_name doclingeasyocr # 获取预测结果 python3 metrics.py --model_name doclingeasyocr # 获取MARS（Markdown识别分数）

图表和图形评估即将推出...

如果您在研究或应用中使用KITAB-Bench，请使用以下BibTeX引用： bibtex @misc{heakl2025kitab, title={KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding}, author={Ahmed Heakl and Abdullah Sohail and Mukul Ranjan and Rania Hossam and Ghazi Ahmed and Mohamed El-Geish and Omar Maher and Zhiqiang Shen and Fahad Khan and Salman Khan}, year={2025}, eprint={2502.14949}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2502.14949}, }

搜集汇总

数据集介绍

构建方式

KITAB-Bench数据集的构建，覆盖了9大领域及36个子领域，共计8,809个样本，包含了PDF文档、手写文本、结构化表格、金融和法律报告等多种文档类型。数据集通过高质量的人工标注确保了评估的公平性，构建过程中采用了数据生成管道，确保了数据的多样性和覆盖面。

特点

该数据集的特点在于其综合性和多样性，不仅涵盖了传统的文本识别任务，还包括了布局检测、表格识别、图表数据提取等任务。数据集引入了新的阿拉伯语OCR评估指标，如Markdown识别评分(MARS)、表格编辑距离(TEDS)、图表数据提取指标(SCRM)，为阿拉伯语文档处理提供了全面的评估标准。

使用方法

使用KITAB-Bench数据集，用户需要克隆相应的仓库，并根据不同的评估任务安装必要的依赖。数据集提供了布局评估、VQA评估、表格评估、线条检测与识别评估、OCR评估以及PDF-to-Markdown评估等脚本，用户可以根据需要运行相应的脚本进行模型评估。详细的安装和使用指南可在数据集的GitHub页面上找到。

背景与挑战

背景概述

KITAB-Bench是一项全面的多领域基准测试，旨在评估阿拉伯光学字符识别（OCR）和文档理解系统的性能。该数据集由Ahmed Heakl等研究人员于2025年创建，主要针对阿拉伯OCR的独特挑战，如书写脚本、文本流向以及复杂的版面设计。KITAB-Bench包含了9个主要领域和36个子领域的8,809个样本，涵盖了从PDF到Markdown转换、布局检测、文本行识别到图表数据提取等多种文档处理任务。该数据集的引入为阿拉伯文档处理领域设立了一个新的评估标准，推动了更准确、高效和智能的文档理解技术的发展。

当前挑战

KITAB-Bench在构建过程中面临的主要挑战包括：1)阿拉伯OCR的准确性，特别是在处理手写文本、表格、图表等复杂版面设计时；2)创建一个多样化的、高质量人工标注的数据集，以实现公平的评估；3)定义新的评估指标，如Markdown识别评分（MARS）、表格编辑距离评分（TEDS）和图表数据转换评分（SCRM），以全面评估OCR模型在不同文档处理任务中的性能。此外，该数据集还需解决跨领域的一致性和模型泛化能力的问题。

常用场景

经典使用场景

KITAB-Bench作为全面的多领域阿拉伯OCR和文档理解基准，其经典使用场景在于评估和比较不同OCR系统在阿拉伯文本识别、布局检测、表格识别、图表数据提取等任务上的性能。该数据集通过提供高质量的人工标注数据，使得研究者能够对传统OCR、视觉语言模型（VLMs）以及专用AI系统进行严格的性能评估。

解决学术问题

KITAB-Bench解决了阿拉伯OCR领域中的多项学术研究问题，包括对曲线脚本和从右到左文本流的识别挑战、复杂排版和书法变体的处理，以及表格、图表和图示密集型文档的理解。通过引入新的评估指标，如Markdown识别评分（MARS）、表格编辑距离评分（TEDS）和图表表示度量（SCRM），该数据集为阿拉伯文档处理的多维度评价提供了可靠的基准。

衍生相关工作

基于KITAB-Bench的研究成果已衍生出多项相关工作，包括对阿拉伯OCR系统的改进、新型评估指标的探索，以及针对特定文档类型（如手写文本、结构化表格等）的专门化AI解决方案。这些工作不仅丰富了阿拉伯OCR领域的研究内涵，也为实际应用提供了更多的技术选择和优化路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集