Pearl
收藏arXiv2025-05-28 更新2025-05-30 收录
下载链接:
https://github.com/UBC-NLP/pearl
下载链接
链接失效反馈官方服务:
资源简介:
Pearl 是一个大规模的阿拉伯多模态数据集,旨在促进文化理解。该数据集由来自阿拉伯世界的45位贡献者合作构建,涵盖了十个具有文化意义的领域,包括建筑、服装、动物、节日和庆典、植物、食物、地理、手工艺品、地标和音乐。Pearl 数据集包含超过309,000个多模态示例,旨在测试复杂的LVLM功能,包括假设形成、解决问题、比较分析和时间序列。Pearl 还引入了一个名为 Pearl-X 的新基准,旨在评估现有的基准中未考虑的文化细微差异。Pearl 的目标是建立一个基础资源,以推动文化信息多模态建模研究的发展。
提供机构:
不列颠哥伦比亚大学
创建时间:
2025-05-28
原始信息汇总
PEARL: 多模态文化感知阿拉伯语指令数据集概述
数据集简介
- 名称: PEARL (A Multimodal Culturally-Aware Arabic Instruction Dataset)
- 类型: 多模态数据集(视觉-语言模型)
- 语言: 阿拉伯语
- 文化覆盖: 涵盖所有阿拉伯国家
- 规模: 超过309K多模态示例
- 开发团队: 45名来自阿拉伯世界的标注者参与
核心组成部分
-
PEARL核心数据集
- 用途: 文化感知VLM训练与基准测试
- 内容:
- 10个重要文化领域(建筑/服装/美食/节日等)
- 13种问题类型测试认知能力
- 基准子集:
- 6,867个高质量QA对
- 包含5,310封闭式+1,557开放式问题
-
PEARL-X专项评估集
- 特点: 评估文化细微差异
- 内容:
- 61个跨阿拉伯国家的共享文化概念
- 347张图像(平均每个概念3张)
- 367个问题(177单图+190多图问题)
-
PEARL-LITE轻量版
- 特点: 快速评估的简化版本
数据特征
- 文化代表性: 覆盖阿拉伯世界所有国家
- 问题多样性:
- 假设形成
- 问题解决
- 比较分析
- 时间排序
- 评估维度:
- 正确性
- 连贯性
- 细节丰富度
- 流畅度
- 文化意识评分(CAS)
技术亮点
- 工作流程:
- 基于智能体流程
- 人工循环迭代优化
- 评估方法:
- 封闭式问题: 宽松匹配准确率(ACC)
- 开放式问题: LVLM-as-judge框架
获取方式
python from datasets import load_dataset pearl_dataset = load_dataset("UBC-NLP/PEARL") # 主数据集 pearl_lite = load_dataset("UBC-NLP/PEARL-LITE") # 轻量版 pearl_x = load_dataset("UBC-NLP/PEARL-X") # 专项评估集
引用格式
bibtex @article{Alwajih2025pearl, title={Pearl: A Multimodal Culturally-Aware {A}rabic Instruction Dataset}, author={Fakhraddin Alwajih et al.}, journal={arXiv preprint arXiv:2505.21979}, year={2025} }
版本信息
- PEARL: 完整基准套件
- PEARL-LITE: 轻量评估版
- PEARL-X: 共享概念评估扩展
- PEARL-Z: 训练用完整生成集(即将推出)
搜集汇总
数据集介绍

构建方式
Pearl数据集的构建采用了先进的代理工作流程与广泛的人工参与标注相结合的方法。首先从阿拉伯语维基百科中筛选与文化相关的图像-文章对,确保覆盖建筑、服饰、动植物等10个文化领域。随后利用基于Qwen2.5-VL-72B-Instruct的智能代理生成增强描述和结构化问答对,涵盖因果推理、比较分析等13种问题类型。最后通过来自9个阿拉伯国家的45名本地标注者进行两轮人工审核,确保文化准确性和问题质量。这种混合方法最终产生了包含30.9万样本的多模态数据集,其中1.6万组问答经过严格人工验证。
特点
作为首个大规模阿拉伯文化多模态基准,Pearl具有三个显著特点:其文化覆盖广度体现在包含所有阿拉伯国家(除3个)的12,637张图像,涵盖饮食、地理标志等10个文化维度;问题设计的深度通过13类需文化推理的问题类型实现,如假设形成、时间排序等高阶认知任务;独特的Pearl-X子集专门评估61个跨地区文化概念(如头巾、鹰猎)的细微差异,包含347张对比图像和367道多图像对比问题,为文化敏感性评估提供新范式。
使用方法
使用Pearl时建议分三步:评估阶段可采用6,867道基准问题(含5,310选择题和1,557开放题),使用Qwen2.5-VL-32B作为自动评分器,对封闭式问题采用宽松匹配准确率,开放题则从正确性、连贯性等四个维度加权评分;微调阶段可利用13.5万增强描述和30.9万问答对进行文化对齐训练;专项评估推荐使用Pearl-X的对比问题组,通过单图定位和多图对比两种模式检验模型对文化差异的敏感度。所有资源均提供标准化JSON格式,并附详细标注指南和提示模板。
背景与挑战
背景概述
Pearl是由不列颠哥伦比亚大学、MBZUAI等机构的研究团队于2025年推出的一个大规模阿拉伯多模态指令数据集与基准测试套件,旨在提升视觉语言模型(LVLM)的文化理解能力。该数据集由来自阿拉伯世界9个国家的45名本地标注者通过半自动化流程构建,覆盖建筑、服饰、饮食等10个文化领域,包含超过30.9万组多模态样本,涵盖所有阿拉伯国家(除3个小国外)。作为首个系统化整合阿拉伯文化多样性的多模态资源,Pearl特别设计了13类需文化推理的问题类型(如因果分析、假设形成等),并创新性地引入Pearl-X子集以评估跨地区文化差异。其构建融合了智能体工作流与人工校验,显著推进了多模态模型在非西方文化背景下的研究。
当前挑战
该数据集面临的核心挑战体现在两方面:领域问题层面,主流LVLM固有的西方文化偏见导致对阿拉伯文化元素的识别准确率不足(如传统服饰分类错误率达42%),且复杂文化推理任务(如时序分析)的完成度仅为基准模型的67%;构建过程层面,文化特异性标注需平衡22国方言差异,图像与维基百科文章的跨模态对齐耗时达6个月,而自动生成的问答对经人工校验后淘汰率高达82%。此外,共享文化概念的地区变体(如也门与沙特版本的Kabsa料理)要求标注者具备跨地域文化知识,这对质量一致性控制提出了极高要求。
常用场景
经典使用场景
Pearl数据集在跨文化视觉语言理解研究中具有重要应用价值,其多模态特性为探索阿拉伯文化语境下的视觉问答任务提供了丰富素材。该数据集通过融合视觉元素与文化背景知识,支持从传统建筑到民俗庆典等十类文化领域的深度研究,特别适合用于测试模型在复杂文化场景中的多模态推理能力。
解决学术问题
该数据集有效解决了当前多模态模型在阿拉伯文化理解中的三大瓶颈:文化特异性数据匮乏、区域差异表征不足以及复杂推理任务评估缺失。通过覆盖22个阿拉伯国家的文化特征和13类需深层文化知识的问答类型,为量化模型的文化认知偏差、提升跨文化泛化能力提供了基准工具,显著推进了文化感知人工智能的研究进程。
衍生相关工作
基于Pearl的基准特性,已衍生出多项创新研究,包括文化敏感的视觉语言模型微调方法、跨区域文化特征对比分析框架等。其子集Pearl-X进一步催生了针对共享文化概念的差异化识别研究,相关成果在CVPR等顶会中形成系列工作,推动了多模态文化计算领域的方法论发展。
以上内容由遇见数据集搜集并总结生成



