KITAB-Bench
收藏KITAB-Bench: 阿拉伯OCR和文档理解综合基准
Overview
随着🔍光学字符识别(OCR)在文档处理中📈 Retrieval-Augmented Generation (RAG)技术的日益普及,强大的阿拉伯OCR对于知识提取至关重要。阿拉伯OCR面临的挑战包括:
- ✍️ 书法脚本和🏷️从右到左的文本流。
- 🖋️ 复杂的版面设计和书法变体。
- 📊 表格、图表和图形密集型文档。
我们介绍了📚 KITAB-Bench,一个全面的阿拉伯OCR基准,用于评估🤖传统OCR、视觉语言模型(VLMs)和专用AI系统的性能。
Key Highlights
- ✅ 9个主要领域和36个子领域的📄 8,809个样本。
- ✅ 📜多样化的文档类型:PDFs、手写文本、结构化表格、金融和法律报告。
- ✅ 强大的基线:与Tesseract、GPT-4o、Gemini、Qwen等进行基准测试。
- ✅ 在OCR、布局检测、表格识别、图表提取和PDF转换方面的评估。
- ✅ 新的评价指标:Markdown Recognition (MARS)、Table Edit Distance (TEDS)、Chart Data Extraction (SCRM)。
🚀 KITAB-Bench为阿拉伯OCR评估设定了新的标准,使文档理解更加准确、高效和智能!📖✨
Dataset Overview
KITAB-Bench涵盖了广泛的文档类型:
| 领域 | 总样本数 |
|---|---|
| PDF-to-Markdown | 33 |
| 布局检测 | 2,100 |
| 行识别 | 378 |
| 表格识别 | 456 |
| 图表转DataFrame | 576 |
| 图表转JSON | 226 |
| 视觉问答(VQA) | 902 |
| 总计 | 8,809 |
📌 提供高质量的人工标注,确保公平评估。
Domains

Benchmark Tasks
KITAB-Bench评估了9个关键的OCR和文档处理任务:
1️⃣ 文本识别(OCR) - 打印和手写阿拉伯OCR。 2️⃣ 布局检测 - 提取文本块、表格、图形等。 3️⃣ 行检测与识别 - 识别并准确识别单个阿拉伯文本行。 4️⃣ 行识别 - 准确识别单个阿拉伯文本行。 5️⃣ 表格识别 - 将结构化表格解析为机器可读格式。 6️⃣ PDF转Markdown - 将阿拉伯PDF转换为结构化Markdown格式。 7️⃣ 图表转DataFrame - 提取21种类型的图表到结构化数据集。 8️⃣ 图表转JSON - 提取流程图、维恩图、网络到JSON。 9️⃣ 视觉问答(VQA) - 理解关于阿拉伯文档的问题。
Evaluation Metrics
为了准确评估OCR模型,KITAB-Bench引入了新的阿拉伯OCR评价度量:
| 指标 | 目的 |
|---|---|
| 字符错误率(CER) | 测量识别字符的准确性。 |
| 单词错误率(WER) | 评估单词级OCR准确性。 |
| MARS(Markdown Recognition Score) | 评估PDF-to-Markdown转换的准确性。 |
| TEDS(Tree Edit Distance Score) | 测量表格提取的正确性。 |
| SCRM(Chart Representation Metric) | 评估图表数据转换。 |
| CODM(Code-Oriented Diagram Metric) | 评估图表到JSON提取的准确性。 |
📌 KITAB-Bench确保在阿拉伯文档处理的多个维度上进行严格的评估。
Performance Results
具体性能结果和图表将在此部分展示。
Installation & Usage
使用KITAB-Bench的步骤如下:
1️⃣ 克隆仓库 bash git clone https://github.com/mbzuai-oryx/KITAB-Bench.git cd KITAB-Bench
2️⃣ 布局评估 bash cd layout-eval pip3 install -r requirements.txt
在BCE Layout数据集上评估单个模型(RT-DETR, Surya, 或 YOLO)
python rt_detr_bcelayout.py python test_surya_bce_layout.py python yolo_doc_bcelayout.py
在DocLayNet数据集上评估单个模型
python rt_detr_doclayout.py python test_surya_doclaynet.py python yolo_doc_doclayout.py
一次性评估所有模型
python evaluate_all.py
3️⃣ VQA评估 bash cd vqa-eval pip3️⃣ VQA评估 bash cd vqa-eval pip3 install -r requirements.txt python3 eval.py --model_name qwen2_vl # 获取预测结果 python3 metrics.py --model_name qwen2_vl # 获取准确匹配率
4️⃣ 表格评估 bash cd tables-eval pip3 install -r requirements.txt python3 eval.py --model_name qwen2_vl # 获取预测结果 python3 metrics.py --model_name qwen2_vl # 获取TEDS和Jaccord指数准确性
5️⃣ 行检测与识别评估 bash cd lines-eval pip3 install -r requirements.txt python3 eval.py --model_name easyocr # 获取预测结果 python3 metric.py --model_name easyocr # 获取mAP和CER分数
6️⃣ OCR评估 bash cd ocr-eval pip3 install -r requirements.txt python3 eval.py --model_name easyocr # 获取预测结果 python3 metrics.py --model_name easyocr # 获取CER、WER、BLEU、chrF和METEOR分数
7️⃣ PDF转Markdown评估 bash cd pdfs-eval pip3 install -r requirements.txt python3 eval.py --model_name doclingeasyocr # 获取预测结果 python3 metrics.py --model_name doclingeasyocr # 获取MARS(Markdown识别分数)
图表和图形评估即将推出...
如果您在研究或应用中使用KITAB-Bench,请使用以下BibTeX引用: bibtex @misc{heakl2025kitab, title={KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding}, author={Ahmed Heakl and Abdullah Sohail and Mukul Ranjan and Rania Hossam and Ghazi Ahmed and Mohamed El-Geish and Omar Maher and Zhiqiang Shen and Fahad Khan and Salman Khan}, year={2025}, eprint={2502.14949}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2502.14949}, }




