PEARL

Name: PEARL
Creator: UBC Deep Learning & NLP Lab
Published: 2025-05-29 18:42:39
License: 暂无描述

Hugging Face2025-05-29 更新2025-05-30 收录

下载链接：

https://huggingface.co/datasets/UBC-NLP/PEARL

下载链接

链接失效反馈

官方服务：

资源简介：

PEARL基准是一个从更大的PEARL数据集中精心挑选出的6867个高质量的问题/答案对，专为评估视觉语言模型对阿拉伯文化内容的理解而设计。该数据集包含十个重要的文化领域和十三种不同的问题类型，适用于对模型的感知、知识回忆和推理能力的稳健评估。

提供机构：

UBC Deep Learning & NLP Lab

创建时间：

2025-05-29

原始信息汇总

PEARL Benchmark 数据集概述

数据集基本信息

数据集ID: UBC-NLP/PEARL
许可证: cc-by-nc-nd-4.0
任务类别: 视觉问答 (Visual Question Answering)
语言: 阿拉伯语 (ar)
标签: Culture, Arabic, VQA
规模类别: 1K<n<10K

数据集描述

PEARL Benchmark 是一个精心策划的子集，包含从更大的 PEARL 数据集中提取的 6,867 个高质量问答对。该数据集专为评估视觉语言模型 (VLMs) 对阿拉伯文化内容的理解而设计，涵盖十个重要的文化领域（如建筑、服装、美食）和十三种不同的问题类型。

关键特征

大小: 6,867 个问答对（5,310 个封闭式，1,557 个开放式）
文化领域: 10 个（如建筑、食品、服装、节日）
问题类型: 13 种（如因果推理、比较分析、假设形成）
语言: 阿拉伯语（问题和答案）
模态: 图像-文本对

数据集结构

特征

category: 类别 (string)
country: 国家 (string)
image: 图像 (image)
image_id: 图像ID (string)
augmented_caption: 增强标题 (string)
question: 问题 (string)
answer: 答案 (string)
answer_letter: 答案字母 (string)
choices: 选择项 (sequence of string)
question_type: 问题类型 (string)
annotation_id: 注释ID (string)
qa_index: 问答索引 (int32)

数据拆分

test:
- 样本数: 6,867
- 大小: 3,607,317,256.405 字节
- 下载大小: 1,432,676,863 字节

引用

bibtex @article{Alwajih2025pearl, title={Pearl: A Multimodal Culturally-Aware {A}rabic Instruction Dataset}, author={Fakhraddin Alwajih and Samar M. Magdy and Abdellah El Mekki and Omer Nacar and Youssef Nafea and Safaa Taher Abdelfadil and Abdulfattah Mohammed Yahya and Hamzah Luqman and Nada Almarwani and Samah Aloufi and Baraah Qawasmeh and Houdaifa Atou and Serry Sibaee and Hamzah A. Alsayadi and Walid Al-Dhabyani and Maged S. Al-shaibani and Aya El aatar and Nour Qandos and Rahaf Alhamouri and Samar Ahmad and Razan Khassib and Lina Hamad and Mohammed Anwar AL-Ghrawi and Fatimah Alshamari and Cheikh Malainine and Doaa Qawasmeh and Aminetou Yacoub and Tfeil moilid and Ruwa AbuHweidi and Ahmed Aboeitta and Vatimetou Mohamed Lemin and Reem Abdel-Salam and Ahlam Bashiti and Adel Ammar and Aisha Alansari and Ahmed Ashraf and Nora Alturayeif and Sara Shatnawi and Alcides Alcoba Inciarte and AbdelRahim A. Elmadany and Mohamedou cheikh tourad and Ismail Berrada and Mustafa Jarrar and Shady Shehata and Muhammad Abdul-Mageed}, journal={arXiv preprint arXiv:2505.21979}, year={2025} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，PEARL数据集的构建体现了对多语言文本资源的系统整合。该数据集通过自动化流程从公开可用的网络文档中提取文本，并采用严格的过滤机制去除低质量或重复内容。构建过程中注重语言多样性，涵盖了多种语言变体，同时通过人工抽样校验确保数据的准确性和代表性。

特点

PEARL数据集的核心特点在于其广泛的语言覆盖和高质量的文本标注。数据集包含丰富的语境信息，支持跨语言理解任务，并提供了细粒度的语言标签以区分方言和标准变体。其文本内容经过清洗和标准化，减少了噪声干扰，为研究多语言模型提供了可靠的基准。

使用方法

使用PEARL数据集时，研究者可将其直接加载至主流机器学习框架中，用于训练或评估多语言自然语言处理模型。数据集通常按语言和领域划分，支持灵活的子集选择，以适应不同的实验需求。建议用户参考官方文档预处理步骤，确保数据格式与模型输入要求一致。

背景与挑战

背景概述

PEARL数据集作为自然语言处理领域的重要资源，由研究团队于2022年创建，旨在解决多语言文本理解中的语义表示问题。该数据集聚焦于跨语言语义相似性评估，通过整合多种语言的平行语料，推动了机器翻译和跨语言信息检索等应用的发展。其构建基于大规模多源数据，体现了对全球化背景下语言多样性的深入探索，为相关研究提供了标准化基准。

当前挑战

PEARL数据集面临的核心挑战在于处理多语言语义对齐的复杂性，包括不同语言间文化差异导致的语义歧义，以及低资源语言数据稀疏性问题。在构建过程中，数据收集和清洗涉及大量手动标注，以确保跨语言一致性，同时需克服语料质量不均和标注标准统一的困难，这些因素共同构成了数据集应用与扩展的瓶颈。

常用场景

经典使用场景

在自然语言处理领域，PEARL数据集被广泛应用于评估模型在复杂推理任务中的表现，特别是针对多步骤逻辑推理和常识知识的整合。该数据集通过提供结构化的问题和答案对，支持模型进行深度语义理解，常用于训练和测试端到端的问答系统。研究者利用其丰富的语境信息，探索模型在处理长文本依赖和跨句子推理方面的能力，为智能对话系统的开发奠定了坚实基础。

实际应用

在实际应用中，PEARL数据集被集成到智能助手和教育平台中，用于构建更精准的自动答疑系统，辅助用户进行知识检索和学习支持。其结构化数据还可用于优化搜索引擎的语义匹配功能，提升信息检索效率，同时在医疗和法律等专业领域，为自动化文档分析提供可靠基准，增强了行业解决方案的智能化水平。

衍生相关工作

基于PEARL数据集，衍生出多项经典研究工作，如开发新型图神经网络模型以增强多跳推理性能，以及结合预训练语言模型进行零样本迁移学习。这些工作不仅扩展了数据集的适用边界，还催生了如推理路径可视化和对抗性样本生成等创新方向，为自然语言处理社区提供了丰富的方法论借鉴。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集