Henna
收藏Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks
摘要
多模态大型语言模型(MLLMs)在需要复杂推理和语言理解的广泛任务中已被证明是有效的。然而,由于缺乏除英语以外的其他语言的高质量多模态资源,MLLMs的成功在很大程度上局限于基于英语的设置。这给开发其他语言(包括甚至拥有大量说话人口的阿拉伯语)的类似模型带来了重大挑战。为了缓解这一挑战,我们引入了一个全面的阿拉伯语MLLMs家族,称为Peacock,具有强大的视觉和语言能力。通过全面的定性和定量分析,我们展示了我们的模型在各种视觉推理任务上的坚实性能,并进一步展示了它们的新兴方言潜力。此外,我们引入了Henna,一个专门设计用于评估与阿拉伯文化相关的MLLMs方面的新基准,为文化感知的阿拉伯MLLMs奠定了第一块基石。
Henna基准
这个图像集合展示了从Henna数据集中精选的子集,代表了11个阿拉伯国家,捕捉了传统食物、当地习俗、历史遗迹、日常活动和各地区特有的建筑特征的本质。
Henna数据集生成
数据集生成示例使用GPT-4V。该图展示了以也门的一个景点为例,生成问题-答案数据集的过程。对于每个地点,使用其对应的维基百科文章和图像为GPT-4V提供丰富的上下文信息。然后,模型为每张图像生成了十个上下文相关的问题和答案。
评估结果
比较Peacock模型在SEED-Benchmark维度上的性能。
示例
展示Peacock模型的示例图像。
引用
如果您发现这项工作对您的研究有用,请引用我们的论文:
@article{alwajih2024peacock, title={Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks}, author={Alwajih, Fakhraddin and Nagoudi, El Moatez Billah and Bhatia, Gagan and Mohamed, Abdelrahman and Abdul-Mageed, Muhammad}, journal={arXiv preprint arXiv:2403.01031}, year={2024} }



