JEEM
收藏魔搭社区2025-12-05 更新2025-09-27 收录
下载链接:
https://modelscope.cn/datasets/toloka/JEEM
下载链接
链接失效反馈官方服务:
资源简介:
# Dataset Card for JEEM

📊 **Curated by**: [Toloka](http://toloka.ai), [MBZUAI](https://mbzuai.ac.ae/research-department/natural-language-processing-department/)
🌐 Language(s): Modern Standard Arabic, 🇯🇴 Jordanian dialect, 🇪🇬 Egyptian dialect, 🇦🇪 Emirati dialect, 🇲🇦 Moroccan dialect
## 🔍 Dataset Description
JEEM is a benchmark dataset designed to evaluate Vision-Language Models (VLMs) in the context of Arabic dialectal diversity. It includes one representative dialect from each major Arabic dialectal region: 🇯🇴 **J**ordanian (Levantine), 🇪🇬 **E**gyptian, 🇦🇪 **E**mirati (Khaleeji), 🇲🇦 **M**oroccan (Maghrebi).
The dataset comprises two main tasks:
1. **Image Captioning** – Evaluating a model’s ability to generate captions that accurately describe images using Modern Standard Arabic (MSA) and dialectal Arabic.
2. **Visual Question Answering (VQA)** – Assessing how well a model understands and responds to questions about images while incorporating dialectal and culturally specific reasoning.
👾 **Repository**: TBD
🗞️ **Paper**: TBD
🪪 **License**: MIT
## 🖊️ Dataset Creation

The JEEM’s creation is carried out in the following steps:
1. Regional-specific images are sourced manually from open-source databases.
2. Annotator A describes the image in both MSA and their dialect (image caption).
3. Annotator B formulates questions in their dialect based only on the image caption.
4. Annotator C reviews the image, caption, and questions, then provides answers in their dialect.
Image captions, questions and answers are written by an in-house team of annotators, who are native speakers of target dialects.
## 🗒️ Dataset Structure
### Dataset Instances
Each dataset instance looks as follows:
```json
{
"id": "66ebab6aeab3ac803338a42d214dd523",
"dialect": "Moroccan",
"image": {"bytes": "...", "path": "..."},
"image_source" : "Wiki",
"description": "في الصورة يظهر رجل جالس على الأرض وهو يعزف على آلة موسيقية معروفة في المغرب باسم 'الجمبري'. الرجل يرتدي عباءة حمراء مزخرفة، وعلى رأسه طربوش أحمر مزين كذلك. بجانب الرجل توجد حقيبة بنية قديمة بعض الشيء.",
"description_dialect": "فالصورة كيبان واحد الراجل جالس فالأرض وكيعزف على آلة موسيقية لي معروفة فالمغرب بسمية 'الجمبري'، الراجل لابس واحد الغندورة حمرة مزوقة، وفراسو طربوش حمر حتى هو مزوق. حدا الراجل كاين واحد الصاك قهوي قديم شوية.",
"question1": "واش هذا الراجل كيعزف بوحدو ولا مع شي فرقة؟",
"question2": "واش كينة شي حاجة فداك الصاك؟",
"question3": "واش الراجل جالس على شي حاجة ولا ديريكت على الأرض؟",
"question4": "شنو اللون ديال الزواق اللي فالغندورة؟",
"question5": "واش باين شمن مدينة تخادت فيها هاد التصويرة؟",
"answer1": "لا الراجل كيعزف غير بوحدو",
"answer2": "ما كيبانش شنو الداخل ديال الصاك ولكن يقدر يكون الغشا ديال الجمبري.",
"answer3": "داير بحال شي وسادة بيضة فوق مانطة فالموف.",
"answer4": "الأغلبية ديال الزواق فالبيض وكاين حتى شوية ديال الصفر.",
"answer5": "لا ولكن غالبا تكون مراكش حيت الحيط اللي مور الراجل حمر.",
"no_answer1": False,
"no_answer2": False,
"no_answer3": False,
"no_answer4": False,
"no_answer5": False
}
```
### Dataset Fields
| Column Name | Description |
|----------------------|------------|
| `id` | A unique identifier for the data instance |
| `dialect` | The Arabic dialect used in the dataset instance |
| `image_source` | The source of the image (Wiki / Flickr / Private) |
| `image` | The image as a PIL Image object |
| `description` | A description of the image in Modern Standard Arabic (MSA) |
| `description_dialect` | The same description written in a dialectal variant of Arabic |
| `question1` - `question5` | A set of five questions related to the image, phrased in Arabic dialect |
| `answer1` - `answer5` | The corresponding answers to the five questions |
| `no_answer1` - `no_answer5` | Indicators of whether a question is unanswerable |
## ⚖️ Licensing Information
The images are subject to the underlying licensing terms of Wikimedia Commons ([Wikimedia Commons Licensing](https://commons.wikimedia.org/wiki/Commons:Licensing/en)) and Flickr ([Flickr Creative Commons](https://www.flickrhelp.com/hc/en-us/articles/4404070159636-Creative-Commons)). The images from private archives, image captions, questions, and answers are distributed under the MIT license ([MIT License](https://opensource.org/license/mit)).
## 📜 Cite us
```
@misc{kadaoui2025jeemvisionlanguageunderstandingarabic,
title={JEEM: Vision-Language Understanding in Four Arabic Dialects},
author={Karima Kadaoui and Hanin Atwany and Hamdan Al-Ali and Abdelrahman Mohamed and Ali Mekky and Sergei Tilga and Natalia Fedorova and Ekaterina Artemova and Hanan Aldarmaki and Yova Kementchedjhieva},
year={2025},
eprint={2503.21910},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.21910},
}
````
## ✉️ Contact us
- Yova Kementchedjhieva ([Yova.Kementchedjhieva@mbzuai.ac.ae](mailto:Yova.Kementchedjhieva@mbzuai.ac.ae))
- Ekaterina Artemova ([Katya-Art@toloka.ai](mailto:katya-art@toloka.ai))
# JEEM 数据集卡片

📊 **数据整理方**:[Toloka](http://toloka.ai)、[穆罕默德·本·扎耶德人工智能大学(MBZUAI)](https://mbzuai.ac.ae/research-department/natural-language-processing-department/)
🌐 支持语言:现代标准阿拉伯语、🇯🇴 约旦方言、🇪🇬 埃及方言、🇦🇪 阿联酋方言、🇲🇦 摩洛哥方言
## 🔍 数据集描述
JEEM 是为评估视觉语言模型(Vision-Language Models,VLMs)在阿拉伯方言多样性场景下的表现而设计的基准数据集。其覆盖了阿拉伯主要方言区各一个代表性方言:🇯🇴 **约旦方言(黎凡特方言)**、🇪🇬 **埃及方言**、🇦🇪 **阿联酋方言(海湾方言)**、🇲🇦 **摩洛哥方言(马格里布方言)**。
本数据集包含两大核心任务:
1. **图像字幕生成**:评估模型使用现代标准阿拉伯语(MSA)与阿拉伯方言生成准确描述图像的字幕的能力。
2. **视觉问答(Visual Question Answering,VQA)**:评估模型理解并响应图像相关问题的能力,同时需融入方言与文化特定的推理逻辑。
👾 **代码仓库**:待公布
🗞️ **研究论文**:待公布
🪪 **开源许可**:MIT 协议
## 🖊️ 数据集构建流程

JEEM 的构建流程如下:
1. 从开源数据库手动采集区域专属图像。
2. 标注员 A 使用现代标准阿拉伯语及其母语方言为图像撰写字幕。
3. 标注员 B 仅基于该图像字幕,用其母语方言编写相关问题。
4. 标注员 C 审阅图像、字幕与问题后,用其母语方言给出对应答案。
所有图像字幕、问题与答案均由母语为目标方言的内部标注团队撰写。
## 🗒️ 数据集结构
### 数据集实例
每个数据集实例的格式如下:
json
{
"id": "66ebab6aeab3ac803338a42d214dd523",
"dialect": "Moroccan",
"image": {"bytes": "...", "path": "..."},
"image_source" : "Wiki",
"description": "في الصورة يظهر رجل جالس على الأرض وهو يعزف على آلة موسيقية معروفة في المغرب باسم 'الجمبري'. الرجل يرتدي عباءة حمراء مزخرفة، وعلى رأسه طربوش أحمر مزين كذلك. بجانب الرجل توجد حقيبة بنية قديمة بعض الشيء.",
"description_dialect": "فالصورة كيبان واحد الراجل جالس فالأرض وكيعزف على آلة موسيقية لي معروفة فالمغرب بسمية 'الجمبري'، الراجل لابس واحد الغندورة حمرة مزوقة، وفراسو طربوش حمر حتى هو مزوق. حدا الراجل كاين واحد الصاك قهوي قديم شوية.",
"question1": "واش هذا الراجل كيعزف بوحدو ولا مع شي فرقة؟",
"question2": "واش كينة شي حاجة فداك الصاك؟",
"question3": "واش الراجل جالس على شي حاجة ولا ديريكت على الأرض؟",
"question4": "شنو اللون ديال الزواق اللي فالغندورة؟",
"question5": "واش باين شمن مدينة تخادت فيها هاد التصويرة؟",
"answer1": "لا الراجل كيعزف غير بوحدو",
"answer2": "ما كيبانش شنو الداخل ديال الصاك ولكن يقدر يكون الغشا ديال الجمبري.",
"answer3": "داير بحال شي وسادة بيضة فوق مانطة فالموف.",
"answer4": "الأغلبية ديال الزواق فالبيض وكاين حتى شوية ديال الصفر.",
"answer5": "لا ولكن غالبا تكون مراكش حيت الحيط اللي مور الراجل حمر.",
"no_answer1": false,
"no_answer2": false,
"no_answer3": false,
"no_answer4": false,
"no_answer5": false
}
### 数据集字段
| 列名 | 描述 |
|----------------------|------------|
| `id` | 数据实例的唯一标识符 |
| `dialect` | 该数据实例使用的阿拉伯方言 |
| `image_source` | 图像来源(Wiki / Flickr / Private) |
| `image` | PIL 图像格式的图像文件 |
| `description` | 采用现代标准阿拉伯语(MSA)撰写的图像描述 |
| `description_dialect` | 采用阿拉伯方言变体撰写的同一段图像描述 |
| `question1` - `question5` | 与图像相关的5个问题,均以阿拉伯方言表述 |
| `answer1` - `answer5` | 对应5个问题的标准答案 |
| `no_answer1` - `no_answer5` | 标记该问题是否无法作答的布尔值 |
## ⚖️ 许可信息
本数据集所使用的图像需遵循 Wikimedia Commons([Wikimedia Commons 许可协议](https://commons.wikimedia.org/wiki/Commons:Licensing/en))与 Flickr([Flickr 知识共享协议](https://www.flickrhelp.com/hc/en-us/articles/4404070159636-Creative-Commons))的原有许可条款。私有档案图像、图像字幕、问题与答案则遵循 MIT 许可协议([MIT 协议](https://opensource.org/license/mit))进行分发。
## 📜 引用我们
@misc{kadaoui2025jeemvisionlanguageunderstandingarabic,
title={JEEM: 四种阿拉伯方言场景下的视觉语言理解},
author={Karima Kadaoui and Hanin Atwany and Hamdan Al-Ali and Abdelrahman Mohamed and Ali Mekky and Sergei Tilga and Natalia Fedorova and Ekaterina Artemova and Hanan Aldarmaki and Yova Kementchedjhieva},
year={2025},
eprint={2503.21910},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.21910},
}
## ✉️ 联系方式
- Yova Kementchedjhieva(邮箱:Yova.Kementchedjhieva@mbzuai.ac.ae)
- Ekaterina Artemova(邮箱:katya-art@toloka.ai)
提供机构:
maas
创建时间:
2025-09-15



