five

KITAB-Bench

收藏
github2025-03-02 更新2025-02-25 收录
下载链接:
https://github.com/mbzuai-oryx/KITAB-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
KITAB-Bench是一个全面的阿拉伯OCR基准,用于评估传统OCR、视觉语言模型(VLMs)和专用AI系统在阿拉伯文本识别方面的性能。

KITAB-Bench is a comprehensive Arabic OCR benchmark for evaluating the performance of traditional OCR systems, vision-language models (VLMs) and specialized AI systems in Arabic text recognition.
创建时间:
2025-02-20
原始信息汇总

KITAB-Bench: 阿拉伯OCR和文档理解综合基准

Overview

随着🔍光学字符识别(OCR)在文档处理中📈 Retrieval-Augmented Generation (RAG)技术的日益普及,强大的阿拉伯OCR对于知识提取至关重要。阿拉伯OCR面临的挑战包括:

  • ✍️ 书法脚本和🏷️从右到左的文本流。
  • 🖋️ 复杂的版面设计和书法变体。
  • 📊 表格、图表和图形密集型文档。

我们介绍了📚 KITAB-Bench,一个全面的阿拉伯OCR基准,用于评估🤖传统OCR、视觉语言模型(VLMs)和专用AI系统的性能。

Key Highlights

  • ✅ 9个主要领域和36个子领域的📄 8,809个样本。
  • ✅ 📜多样化的文档类型:PDFs、手写文本、结构化表格、金融和法律报告。
  • ✅ 强大的基线:与Tesseract、GPT-4o、Gemini、Qwen等进行基准测试。
  • ✅ 在OCR、布局检测、表格识别、图表提取和PDF转换方面的评估。
  • ✅ 新的评价指标:Markdown Recognition (MARS)、Table Edit Distance (TEDS)、Chart Data Extraction (SCRM)。

🚀 KITAB-Bench为阿拉伯OCR评估设定了新的标准,使文档理解更加准确、高效和智能!📖✨

Dataset Overview

KITAB-Bench涵盖了广泛的文档类型:

领域 总样本数
PDF-to-Markdown 33
布局检测 2,100
行识别 378
表格识别 456
图表转DataFrame 576
图表转JSON 226
视觉问答(VQA) 902
总计 8,809

📌 提供高质量的人工标注,确保公平评估。

Domains

taxonomy

Benchmark Tasks

KITAB-Bench评估了9个关键的OCR和文档处理任务:

1️⃣ 文本识别(OCR) - 打印和手写阿拉伯OCR。 2️⃣ 布局检测 - 提取文本块、表格、图形等。 3️⃣ 行检测与识别 - 识别并准确识别单个阿拉伯文本行。 4️⃣ 行识别 - 准确识别单个阿拉伯文本行。 5️⃣ 表格识别 - 将结构化表格解析为机器可读格式。 6️⃣ PDF转Markdown - 将阿拉伯PDF转换为结构化Markdown格式。 7️⃣ 图表转DataFrame - 提取21种类型的图表到结构化数据集。 8️⃣ 图表转JSON - 提取流程图、维恩图、网络到JSON。 9️⃣ 视觉问答(VQA) - 理解关于阿拉伯文档的问题。

Evaluation Metrics

为了准确评估OCR模型,KITAB-Bench引入了新的阿拉伯OCR评价度量:

指标 目的
字符错误率(CER) 测量识别字符的准确性。
单词错误率(WER) 评估单词级OCR准确性。
MARS(Markdown Recognition Score) 评估PDF-to-Markdown转换的准确性。
TEDS(Tree Edit Distance Score) 测量表格提取的正确性。
SCRM(Chart Representation Metric) 评估图表数据转换。
CODM(Code-Oriented Diagram Metric) 评估图表到JSON提取的准确性。

📌 KITAB-Bench确保在阿拉伯文档处理的多个维度上进行严格的评估。

Performance Results

具体性能结果和图表将在此部分展示。

Installation & Usage

使用KITAB-Bench的步骤如下:

1️⃣ 克隆仓库 bash git clone https://github.com/mbzuai-oryx/KITAB-Bench.git cd KITAB-Bench

2️⃣ 布局评估 bash cd layout-eval pip3 install -r requirements.txt

在BCE Layout数据集上评估单个模型(RT-DETR, Surya, 或 YOLO)

python rt_detr_bcelayout.py python test_surya_bce_layout.py python yolo_doc_bcelayout.py

在DocLayNet数据集上评估单个模型

python rt_detr_doclayout.py python test_surya_doclaynet.py python yolo_doc_doclayout.py

一次性评估所有模型

python evaluate_all.py

3️⃣ VQA评估 bash cd vqa-eval pip3️⃣ VQA评估 bash cd vqa-eval pip3 install -r requirements.txt python3 eval.py --model_name qwen2_vl # 获取预测结果 python3 metrics.py --model_name qwen2_vl # 获取准确匹配率

4️⃣ 表格评估 bash cd tables-eval pip3 install -r requirements.txt python3 eval.py --model_name qwen2_vl # 获取预测结果 python3 metrics.py --model_name qwen2_vl # 获取TEDS和Jaccord指数准确性

5️⃣ 行检测与识别评估 bash cd lines-eval pip3 install -r requirements.txt python3 eval.py --model_name easyocr # 获取预测结果 python3 metric.py --model_name easyocr # 获取mAP和CER分数

6️⃣ OCR评估 bash cd ocr-eval pip3 install -r requirements.txt python3 eval.py --model_name easyocr # 获取预测结果 python3 metrics.py --model_name easyocr # 获取CER、WER、BLEU、chrF和METEOR分数

7️⃣ PDF转Markdown评估 bash cd pdfs-eval pip3 install -r requirements.txt python3 eval.py --model_name doclingeasyocr # 获取预测结果 python3 metrics.py --model_name doclingeasyocr # 获取MARS(Markdown识别分数)

图表和图形评估即将推出...

如果您在研究或应用中使用KITAB-Bench,请使用以下BibTeX引用: bibtex @misc{heakl2025kitab, title={KITAB-Bench: A Comprehensive Multi-Domain Benchmark for Arabic OCR and Document Understanding}, author={Ahmed Heakl and Abdullah Sohail and Mukul Ranjan and Rania Hossam and Ghazi Ahmed and Mohamed El-Geish and Omar Maher and Zhiqiang Shen and Fahad Khan and Salman Khan}, year={2025}, eprint={2502.14949}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2502.14949}, }

搜集汇总
数据集介绍
main_image_url
构建方式
KITAB-Bench数据集的构建,覆盖了9大领域及36个子领域,共计8,809个样本,包含了PDF文档、手写文本、结构化表格、金融和法律报告等多种文档类型。数据集通过高质量的人工标注确保了评估的公平性,构建过程中采用了数据生成管道,确保了数据的多样性和覆盖面。
特点
该数据集的特点在于其综合性和多样性,不仅涵盖了传统的文本识别任务,还包括了布局检测、表格识别、图表数据提取等任务。数据集引入了新的阿拉伯语OCR评估指标,如Markdown识别评分(MARS)、表格编辑距离(TEDS)、图表数据提取指标(SCRM),为阿拉伯语文档处理提供了全面的评估标准。
使用方法
使用KITAB-Bench数据集,用户需要克隆相应的仓库,并根据不同的评估任务安装必要的依赖。数据集提供了布局评估、VQA评估、表格评估、线条检测与识别评估、OCR评估以及PDF-to-Markdown评估等脚本,用户可以根据需要运行相应的脚本进行模型评估。详细的安装和使用指南可在数据集的GitHub页面上找到。
背景与挑战
背景概述
KITAB-Bench是一项全面的多领域基准测试,旨在评估阿拉伯光学字符识别(OCR)和文档理解系统的性能。该数据集由Ahmed Heakl等研究人员于2025年创建,主要针对阿拉伯OCR的独特挑战,如书写脚本、文本流向以及复杂的版面设计。KITAB-Bench包含了9个主要领域和36个子领域的8,809个样本,涵盖了从PDF到Markdown转换、布局检测、文本行识别到图表数据提取等多种文档处理任务。该数据集的引入为阿拉伯文档处理领域设立了一个新的评估标准,推动了更准确、高效和智能的文档理解技术的发展。
当前挑战
KITAB-Bench在构建过程中面临的主要挑战包括:1)阿拉伯OCR的准确性,特别是在处理手写文本、表格、图表等复杂版面设计时;2)创建一个多样化的、高质量人工标注的数据集,以实现公平的评估;3)定义新的评估指标,如Markdown识别评分(MARS)、表格编辑距离评分(TEDS)和图表数据转换评分(SCRM),以全面评估OCR模型在不同文档处理任务中的性能。此外,该数据集还需解决跨领域的一致性和模型泛化能力的问题。
常用场景
经典使用场景
KITAB-Bench作为全面的多领域阿拉伯OCR和文档理解基准,其经典使用场景在于评估和比较不同OCR系统在阿拉伯文本识别、布局检测、表格识别、图表数据提取等任务上的性能。该数据集通过提供高质量的人工标注数据,使得研究者能够对传统OCR、视觉语言模型(VLMs)以及专用AI系统进行严格的性能评估。
解决学术问题
KITAB-Bench解决了阿拉伯OCR领域中的多项学术研究问题,包括对曲线脚本和从右到左文本流的识别挑战、复杂排版和书法变体的处理,以及表格、图表和图示密集型文档的理解。通过引入新的评估指标,如Markdown识别评分(MARS)、表格编辑距离评分(TEDS)和图表表示度量(SCRM),该数据集为阿拉伯文档处理的多维度评价提供了可靠的基准。
衍生相关工作
基于KITAB-Bench的研究成果已衍生出多项相关工作,包括对阿拉伯OCR系统的改进、新型评估指标的探索,以及针对特定文档类型(如手写文本、结构化表格等)的专门化AI解决方案。这些工作不仅丰富了阿拉伯OCR领域的研究内涵,也为实际应用提供了更多的技术选择和优化路径。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作