Henna

arXiv2024-03-02 更新2024-07-30 收录

下载链接：

https://github.com/UBC-NLP/peacock

下载链接

链接失效反馈

官方服务：

资源简介：

一个专门设计用于评估与阿拉伯文化相关的多模态大型语言模型的基准。

A benchmark specifically designed for evaluating multimodal large language models related to Arab culture.

创建时间：

2024-03-02

原始信息汇总

Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks

摘要

多模态大型语言模型（MLLMs）在需要复杂推理和语言理解的广泛任务中已被证明是有效的。然而，由于缺乏除英语以外的其他语言的高质量多模态资源，MLLMs的成功在很大程度上局限于基于英语的设置。这给开发其他语言（包括甚至拥有大量说话人口的阿拉伯语）的类似模型带来了重大挑战。为了缓解这一挑战，我们引入了一个全面的阿拉伯语MLLMs家族，称为Peacock，具有强大的视觉和语言能力。通过全面的定性和定量分析，我们展示了我们的模型在各种视觉推理任务上的坚实性能，并进一步展示了它们的新兴方言潜力。此外，我们引入了Henna，一个专门设计用于评估与阿拉伯文化相关的MLLMs方面的新基准，为文化感知的阿拉伯MLLMs奠定了第一块基石。

Henna基准

这个图像集合展示了从Henna数据集中精选的子集，代表了11个阿拉伯国家，捕捉了传统食物、当地习俗、历史遗迹、日常活动和各地区特有的建筑特征的本质。

Henna数据集生成

数据集生成示例使用GPT-4V。该图展示了以也门的一个景点为例，生成问题-答案数据集的过程。对于每个地点，使用其对应的维基百科文章和图像为GPT-4V提供丰富的上下文信息。然后，模型为每张图像生成了十个上下文相关的问题和答案。

评估结果

比较Peacock模型在SEED-Benchmark维度上的性能。

示例

展示Peacock模型的示例图像。

引用

如果您发现这项工作对您的研究有用，请引用我们的论文：

@article{alwajih2024peacock, title={Peacock: A Family of Arabic Multimodal Large Language Models and Benchmarks}, author={Alwajih, Fakhraddin and Nagoudi, El Moatez Billah and Bhatia, Gagan and Mohamed, Abdelrahman and Abdul-Mageed, Muhammad}, journal={arXiv preprint arXiv:2403.01031}, year={2024} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集