DuwatBench
收藏Hugging Face2026-01-24 更新2026-01-25 收录
下载链接:
https://huggingface.co/datasets/MBZUAI/DuwatBench
下载链接
链接失效反馈官方服务:
资源简介:
DuwatBench是一个全面的基准数据集,用于评估语言多模态模型在阿拉伯书法识别上的表现。阿拉伯书法代表了阿拉伯语言最丰富的视觉传统之一,将语言意义与艺术形式相结合。该数据集填补了现代AI系统处理风格化阿拉伯文本评估的空白。数据集包含1,272个精心挑选的样本,涵盖6种古典和现代书法风格,超过9.5k个单词实例和约1,475个独特单词,覆盖宗教和文化领域。此外,数据集还提供了边界框注释、完整文本转录、风格和主题标签,以及复杂的艺术背景,以保留真实世界的视觉复杂性。
提供机构:
Mohamed Bin Zayed University of Artificial Intelligence
创建时间:
2026-01-24
原始信息汇总
DuwatBench 数据集概述
数据集基本信息
- 数据集名称:DuwatBench
- 发布机构:Mohamed bin Zayed University of AI (MBZUAI)
- 发布日期:2026年1月22日
- 许可协议:Apache License 2.0
- 数据集地址:https://huggingface.co/datasets/MBZUAI/DuwatBench
- 相关论文:DuwatBench: Bridging Language and Visual Heritage through an Arabic Calligraphy Benchmark for Multimodal Understanding (EACL 2026 Main)
数据集简介
DuwatBench 是一个用于评估大型多模态模型在阿拉伯文书法识别任务上的综合性基准数据集。该数据集旨在弥合语言与视觉文化遗产之间的鸿沟,专注于评估现代人工智能系统处理风格化阿拉伯文本的能力。
数据集规模与结构
- 总样本数:1,272 个样本
- 数据分割:仅包含训练集 (train)
- 数据集大小:402,789,351 字节
- 下载大小:399,125,040 字节
数据特征
数据集包含以下特征字段:
- image:图像数据
- image_id:图像标识符 (字符串)
- style:书法风格 (字符串)
- category:文本类别 (字符串)
- source:数据来源 (字符串)
- text:完整文本转录 (字符串列表)
- word_count:单词计数 (整数列表)
- total_words:总单词数 (整数)
- bboxes:边界框标注 (整数列表的列表)
内容特点
书法风格
涵盖6种古典与现代阿拉伯文书法风格:
- Thuluth (الثلث):用于清真寺装饰的华丽字体
- Diwani (الديواني):流畅的奥斯曼宫廷字体
- Naskh (النسخ):标准可读字体
- Kufic (الكوفي):几何角形早期阿拉伯字体
- Ruqah (الرقعة):现代日常手写体
- Nastaliq (النستعليق):波斯影响的流畅字体
文本内容
- 单词实例:超过9,500个单词实例
- 独特单词:约1,475个独特单词
- 文本类别:涵盖宗教与文化领域主题
标注信息
- 边界框标注:支持检测级评估
- 完整文本转录:包含风格和主题标签
- 艺术背景:保留真实世界的视觉复杂性
数据来源
- 数字档案馆:美国国会图书馆、纽约公共图书馆数字馆藏
- 社区资源库:Calligraphy Qalam、Free Islamic Calligraphy、Pinterest
- 标注工具:MakeSense.ai
- 阿拉伯语NLP工具:CAMeL Tools
联系方式
- GitHub问题:https://github.com/mbzuai-oryx/DuwatBench/issues
- 作者邮箱:shubham.patle, sara.ghaboura, omkar.thawakar@mbzuai.ac.ae
搜集汇总
数据集介绍

构建方式
在阿拉伯书法这一融合语言艺术与视觉表达的独特领域,DuwatBench数据集的构建遵循了严谨的流程。研究团队从国会图书馆、纽约公共图书馆数字馆藏等公共数字档案,以及Calligraphy Qalam等社区资源中,系统性地收集了涵盖六种古典与现代风格的书法图像。每一幅图像均经过人工转录,为其中的文字生成精确的文本标注,并辅以边界框进行空间定位。为确保数据质量,构建流程中引入了多层级验证机制,对转录文本、风格分类及主题标签进行反复核对与聚合,最终形成了包含1,272个高质量样本的基准数据集。
使用方法
该数据集主要服务于多模态大模型在复杂视觉文本理解能力上的评估与推进。研究者可利用其提供的图像、文本转录、边界框以及风格与类别标签,系统性地测试模型对艺术化阿拉伯文字的识别、解读与上下文关联能力。具体而言,数据集支持多种任务范式,例如基于给定书法图像生成对应文本,或根据文本描述定位图像中的特定词汇。通过HuggingFace平台,用户可便捷地加载数据集,并利用其清晰的结构化特征开展实验,从而推动跨语言与文化遗产的视觉-语言理解研究。
背景与挑战
背景概述
阿拉伯书法作为阿拉伯语言与视觉艺术交融的璀璨结晶,承载着深厚的文化遗产与美学价值。DuwatBench数据集由穆罕默德·本·扎耶德人工智能大学等机构的研究团队于2025年创建,旨在填补多模态人工智能系统在识别与理解风格化阿拉伯文本方面的评估空白。该数据集聚焦于古典与现代书法风格的视觉语言理解,核心研究问题在于探索大型多模态模型如何解析兼具艺术形式与语义内涵的阿拉伯书法图像。通过涵盖六种主要书法风格与宗教文化主题的1272个样本,DuwatBench为跨模态研究提供了结构化基准,推动了文化遗产数字化与多模态人工智能的交叉领域发展。
当前挑战
在领域问题层面,阿拉伯书法识别面临字形高度风格化、连笔复杂以及艺术背景干扰等固有挑战,要求模型超越常规光学字符识别,具备对艺术变体的语义解构能力。数据集构建过程中,研究团队需克服样本收集的稀缺性与代表性平衡难题,从分散的公共数字档案中筛选高质量图像。同时,手动标注过程涉及书法专家对复杂连笔字符的精确转录与边界框标定,并需通过多轮验证确保跨风格与跨类别注释的一致性,以维持数据集的学术严谨性与实用价值。
常用场景
经典使用场景
在跨模态人工智能研究领域,阿拉伯书法作为语言与视觉艺术交融的独特载体,对多模态理解模型提出了深刻挑战。DuwatBench数据集以其精心标注的1272个样本,覆盖了Thuluth、Diwani、Naskh等六种古典与现代书法风格,成为评估大型多模态模型在艺术化文本识别任务上的经典基准。研究者利用该数据集系统检验模型对复杂字形、装饰性背景以及多风格变体的解析能力,推动视觉语言理解技术向文化遗产数字化方向纵深发展。
解决学术问题
该数据集直面多模态人工智能在非标准文本处理中的核心瓶颈,即模型对艺术化、风格化文字的理解局限。通过提供包含9500余词例、1475个独特词汇的精确转录与边界框标注,DuwatBench有效解决了书法图像中文本检测与识别、风格分类、跨域语义理解等关键学术问题。其构建填补了阿拉伯语艺术字体评估资源的空白,为量化模型在文化敏感场景下的性能提供了严谨的度量标准,促进了多模态模型鲁棒性与泛化能力的理论探索。
实际应用
在文化遗产保护与数字化领域,DuwatBench为自动化档案整理、智能博物馆导览及教育工具开发提供了关键数据支撑。实际应用中,该数据集训练的模型能够识别历史文献中的书法风格,辅助学者进行文物断代与溯源;在公共文化服务中,可实现书法作品的实时翻译与讲解,增强公众对阿拉伯艺术遗产的认知。此外,其在设计自动化、多语言OCR系统优化等方面也展现出广泛的应用潜力,架起了传统艺术与现代技术之间的桥梁。
数据集最近研究
最新研究方向
在数字人文与多模态人工智能交叉领域,阿拉伯书法作为语言与视觉艺术的独特融合,正成为文化遗产计算研究的前沿焦点。DuwatBench数据集的推出,精准回应了当前大语言视觉模型在艺术化文本理解上的评估需求,其最新研究聚焦于提升模型对复杂书法风格的跨模态解析能力。该数据集通过整合六种古典与现代书法风格,并涵盖宗教与文化主题的丰富文本,为探索模型在艺术背景下的文字检测、风格识别与语义理解提供了标准化基准。相关研究紧密关联全球文化遗产数字化保护的热潮,尤其在促进中东地区语言技术发展的背景下,该工作对推动多模态模型在非拉丁文字艺术形态上的公平性与泛化性具有深远意义,为连接人工智能与视觉遗产搭建了关键桥梁。
以上内容由遇见数据集搜集并总结生成



