DuwatBench

Name: DuwatBench
Creator: 穆罕默德·本·扎耶德人工智能大学; 澳大利亚国立大学
Published: 2026-01-28 02:59:19
License: 暂无描述

arXiv2026-01-28 更新2026-01-29 收录

下载链接：

https://github.com/mbzuai-oryx/DuwatBench

下载链接

链接失效反馈

官方服务：

资源简介：

DuwatBench是由穆罕默德·本·扎耶德人工智能大学团队构建的阿拉伯书法多模态理解基准数据集，包含1,272个精选样本，涵盖6种古典与现代书法风格（如Thuluth、Diwani等），共计1,475个独特词汇。数据集通过数字化档案和社区资源采集，经过严格的质量筛选、人工转录和边界框标注，包含复杂艺术背景下的宗教与非宗教文本。其创新性在于整合了句子级检测注释与风格分类标签，为评估AI模型对阿拉伯艺术文字的识别、语义理解及文化适应性提供了标准化测试平台，主要应用于文化遗产数字化、多模态机器学习等领域。

提供机构：

穆罕默德·本·扎耶德人工智能大学; 澳大利亚国立大学

创建时间：

2026-01-28

原始信息汇总

DuwatBench 数据集概述

数据集基本信息

数据集名称： DuwatBench
核心目标：评估大型多模态模型在阿拉伯文书法识别上的能力，弥合语言与视觉文化遗产之间的差距。
论文状态：已被 EACL 2026 主会议接收。
发布状态：数据集已开源发布。
托管平台：数据集可在 HuggingFace 上获取：https://huggingface.co/datasets/MBZUAI/TimeTravel
代码仓库： https://github.com/mbzuai-oryx/DuwatBench

数据集内容与规模

样本数量： 1,272 个精心筛选的样本。
文本规模：包含超过 9.5k 个单词实例，约 1,475 个独特单词。
覆盖领域：涵盖宗教（如《古兰经》经文）和文化领域的文本。
视觉背景：包含复杂的艺术背景，保留了真实世界的视觉复杂性。

书法风格

数据集涵盖 6 种古典与现代阿拉伯文书法风格：

风格（英文）	风格（阿拉伯文）	描述
Thuluth	الثلث	用于清真寺装饰的华丽字体
Diwani	الديواني	流畅的奥斯曼宫廷字体
Naskh	النسخ	标准易读字体
Kufic	الكوفي	几何角形早期阿拉伯字体
Ruqah	الرقعة	现代日常手写体
Nastaliq	النستعليق	受波斯影响的流畅字体

数据标注与格式

标注类型：
- 完整文本转录。
- 边界框标注，用于检测级评估。
- 风格和主题标签。
数据格式：样本以 JSON 格式存储，每个条目包含以下字段： json { "image_id": "images/2_129.jpg", "Style": "Thuluth", "Text": ["صَدَقَ اللَّهُ الْعَظِيمُ"], "word_count": [3], "total_words": 3, "bboxes": [[34, 336, 900, 312]], "Category": "quranic" }

评估指标

数据集使用以下指标进行评估：

CER：字符错误率（字符级编辑距离）。
WER：单词错误率（单词级编辑距离）。
chrF：字符 n-gram F 分数（部分匹配鲁棒性）。
ExactMatch：严格全序列准确率。
NLD：标准化莱文斯坦距离（平衡误差度量）。

主要评估结果

开源模型性能（摘要）

最佳表现模型： MBZUAI/AIN（阿拉伯语特定模型）在 CER、WER、chrF、ExactMatch 和 NLD 上均优于其他开源模型。
其他模型：包括 Gemma-3-27B-IT, Qwen2.5-VL-72B, Qwen2.5-VL-7B, InternVL3-8B, EasyOCR, TrOCR-Arabic*, LLaVA-v1.6-Mistral-7B。

闭源模型性能（摘要）

最佳表现模型： Gemini-2.5-flash 在 CER、WER、chrF、ExactMatch 和 NLD 所有指标上均表现最佳。
其他模型：包括 Gemini-1.5-flash, GPT-4o, GPT-4o-mini, Claude-Sonnet-4.5。

分风格性能（关键发现）

模型在 Naskh 和 Ruqah（标准化笔画）上表现最佳。
Diwani 和 Thuluth（带有密集连字的华丽字体）仍然具有挑战性。
Kufic（几何刚性）的得分最低。
边界框定位提高了大多数模型的性能。

数据集获取与使用

下载方式：
- 通过 Hugging Face CLI: huggingface-cli download MBZUAI/DuwatBench --local-dir ./data
- 通过 Python: from datasets import load_dataset; dataset = load_dataset("MBZUAI/DuwatBench")
评估脚本：仓库提供 src/evaluate.py 脚本，支持多种模型和评估模式（如 full_image, with_bbox, both）。

许可信息

项目代码许可： Apache License 2.0。
数据集图像许可：图像来源于公共数字档案和社区存储库，遵循其各自的许可协议。

引用

如需在研究中使用 DuwatBench 数据集，请引用： bibtex @misc{patle2026duwatbench, title={DuwatBench: Bridging Language and Visual Heritage through an Arabic Calligraphy Benchmark for Multimodal Understanding}, author={Shubham Patle and Sara Ghaboura and Hania Tariq and Mohammad Usman Khan and Omkar Thawakar and Rao Muhammad Anwer and Salman Khan}, year={2026}, eprint={2601.19898}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2601.19898}, }

搜集汇总

数据集介绍

构建方式

在阿拉伯书法作为语言与视觉艺术交汇点的背景下，DuwatBench的构建遵循了严谨的多阶段流程。数据集从数字档案和社区资源中收集了超过2,950个候选样本，经过基于分辨率和艺术背景完整性的筛选，保留了1,285个高质量实例。随后，由三位阿拉伯语母语者进行手动转录，并利用开源工具生成句子级检测边界框，以捕捉文字与艺术形式之间的空间对齐。为确保标注一致性，样本进一步经过去噪和归一化处理，统一了变音符号和字母变体的编码。最终，通过包含质量控制和书法专家验证的双层验证框架，数据集被精炼为1,272个样本，并按六种主要书法风格和多个文本主题进行分类与聚合，形成了结构化的多模态评估资源。

使用方法

DuwatBench为评估阿拉伯及多语言多模态模型提供了一个标准化的基准测试平台。研究人员可利用数据集中的图像及其配套的转录文本、边界框坐标、风格与主题标签，系统评估模型在书法文本识别、定位及视觉-语义对齐任务上的性能。评估框架支持多种互补指标，包括字符错误率、词错误率、字符F分数、精确匹配和归一化编辑距离，以全面衡量模型在不同书法风格和复杂背景下的鲁棒性。此外，数据集支持有边界框引导的评估模式，通过裁剪文本区域来减少背景干扰，从而深入分析模型在聚焦视觉输入下的表现。通过公开提供数据集与代码，DuwatBench旨在推动文化根基的多模态研究，并支持在文化遗产保护、教育等领域的应用探索。

背景与挑战

背景概述

阿拉伯书法作为阿拉伯语言最丰富的视觉传统之一，将语言意义与艺术形式深度融合。随着多模态模型在多语言领域的快速发展，其处理阿拉伯文字的能力，尤其是在艺术化和风格化的书法形式上，仍存在显著的研究空白。为填补这一空白，穆罕默德·本·扎耶德人工智能大学等机构的研究团队于2026年推出了DuwatBench基准数据集。该数据集包含1,272个精心筛选的样本，涵盖Thuluth、Diwani、Kufic、Naskh、Ruq’ah和Nasta’liq六种古典与现代书法风格，并配有句子级检测标注。其核心研究问题在于评估多模态模型对艺术化阿拉伯文本的理解与对齐能力，旨在推动文化根基深厚的多模态研究，促进阿拉伯语言与视觉遗产在人工智能系统中的公平包容。

当前挑战

DuwatBench所针对的领域挑战在于多模态模型对风格化阿拉伯书法的理解与识别。具体而言，模型需克服复杂笔画模式、密集连字、风格变异以及艺术扭曲带来的视觉-文本对齐困难，这些因素常使标准文本识别系统失效。在数据集构建过程中，团队面临多重挑战：首先，需从数字档案和社区资源中筛选高质量、具有真实艺术背景的书法图像，并处理低分辨率、模糊或不完整样本；其次，手动转录与空间标注依赖于阿拉伯语母语者，需确保字符变体、变音符号的统一与标准化，过程涉及繁琐的降噪与去重；最后，通过多层验证框架保障标注的准确性与一致性，包括客观质量检查与书法专家的风格语境验证，以确保数据集在视觉多样性与语义深度上的可靠性。

常用场景

经典使用场景

在阿拉伯书法艺术与多模态人工智能交叉领域，DuwatBench数据集为评估视觉语言模型在复杂艺术文本上的理解能力提供了标准化测试平台。该数据集精心收录了涵盖六种经典与现代书法风格的1272个样本，每个样本均配有句子级检测标注，真实反映了阿拉伯书写中复杂的笔画模式、密集连字和风格变异等挑战。研究人员利用这一基准系统评估了13种领先的阿拉伯及多语言多模态模型，揭示了现有模型在处理艺术变形和视觉文本对齐方面的显著局限。

解决学术问题

DuwatBench有效解决了阿拉伯书法多模态理解中的核心学术问题。传统文本识别系统往往难以处理艺术化书写的复杂视觉特征，该数据集通过提供真实艺术背景下的书法样本，填补了艺术文本识别评估的空白。其贡献在于系统揭示了多模态模型在风格误解、变音符号敏感性和弯曲文本对齐等方面的系统性缺陷，为改进模型的文化适应性和视觉文本对齐能力提供了实证基础。这一工作推动了文化根基的多模态研究，促进了阿拉伯语言视觉遗产在人工智能系统中的公平包容。

实际应用

该数据集在文化遗产保护与数字人文领域展现出重要应用价值。博物馆和档案馆可利用其评估的模型技术，对历史书法作品进行自动化转录与标注，大幅提升文物数字化效率。教育机构能够基于数据集开发交互式书法学习工具，帮助学生理解不同书法风格的视觉特征与文化内涵。在创意产业中，设计师可借助经DuwatBench优化的多模态系统，实现传统书法元素与现代设计的智能融合，为文化创意产品开发提供技术支持。

数据集最近研究