Palm

Name: Palm
Creator: 不列颠哥伦比亚大学、MBZUAI、Invertible AI、伯泽特大学、沙特王子大学、UM6P、开罗大学、 Ain Shams大学、大马士革大学、苏丹大学、曼努菲亚大学、努瓦克肖特大学、阿尔及利亚国立理工学院、全帆大学、阿尔法塞尔大学
Published: 2025-03-01 03:59:13
License: 暂无描述

arXiv2025-03-01 更新2025-03-06 收录

下载链接：

https://arxiv.org/abs/2503.00151v1

下载链接

链接失效反馈

官方服务：

资源简介：

Palm是一个全面的文化包容性和语言多样性数据集，覆盖了所有22个阿拉伯国家，包含现代标准阿拉伯语（MSA）和方言的双语指令（输入-响应对）。该数据集由44位来自阿拉伯世界各地的研究人员共同开发，旨在为阿拉伯社区提供一个广泛、包容的视角。Palm数据集可用于文化及方言的指令微调，以及评估LLM模型在阿拉伯世界的文化能力。

Palm is a comprehensive culturally inclusive and linguistically diverse dataset covering all 22 Arab countries, which contains bilingual instruction (input-response pairs) in Modern Standard Arabic (MSA) and regional dialects. This dataset was co-developed by 44 researchers from across the Arab world, aiming to provide a broad and inclusive perspective for the Arab community. The Palm dataset can be used for cultural and dialectal instruction fine-tuning, as well as evaluating the cultural competence of Large Language Models (LLMs) in the Arab world.

提供机构：

不列颠哥伦比亚大学、MBZUAI、Invertible AI、伯泽特大学、沙特王子大学、UM6P、开罗大学、 Ain Shams大学、大马士革大学、苏丹大学、曼努菲亚大学、努瓦克肖特大学、阿尔及利亚国立理工学院、全帆大学、阿尔法塞尔大学

创建时间：

2025-03-01

搜集汇总

数据集介绍

构建方式

Palm数据集的构建方式是通过一个由44名来自阿拉伯世界的研究人员组成的团队，历时一年共同完成的社区驱动项目。该数据集涵盖了所有22个阿拉伯国家，并以现代标准阿拉伯语（MSA）和地方方言（DA）的形式，提供了20个不同主题的指令（输入-输出对）。所有指令均由人工创建，并根据可靠的、特定于国家的来源进行了标注，确保了数据的文化和语言多样性。

特点

Palm数据集的特点在于其全面性和多样性。它覆盖了所有22个阿拉伯国家，涵盖了10种不同的阿拉伯方言，并涉及20个不同的主题领域，如庆典、地理、历史等。此外，Palm是第一个在国家级别上涵盖所有22个阿拉伯国家的数据集，并包含了MSA和地方方言的指令。该数据集完全由人工收集和审查，确保了数据的准确性和可靠性。

使用方法

Palm数据集的使用方法包括文化指导和方言指导的语言模型微调，以及评估语言模型在阿拉伯世界的文化能力。数据集被分为三个部分：训练集、公共测试集和私有测试集。训练集用于模型的文化和语言对齐训练，公共测试集用于模型的文化和方言指令评估，而私有测试集则用于公平比较不同的模型和方法的性能。

背景与挑战

背景概述

Palm数据集是一个历时一年、由44位来自阿拉伯世界的研究人员共同参与的社区驱动项目。该数据集包括来自22个阿拉伯国家的指令（输入-输出对），涵盖现代标准阿拉伯语（MSA）和阿拉伯方言（DA），涉及20个不同的主题。Palm数据集旨在提高大型语言模型（LLMs）的文化敏感性和包容性，为阿拉伯社区提供更广泛、更具包容性的视角。该数据集由来自世界各地的阿拉伯世界研究人员团队创建，旨在为文化感知和方言感知的阿拉伯LLMs提供基准和评估工具。

当前挑战

Palm数据集面临的挑战包括：1)阿拉伯方言在当前语言模型中的代表性不足，影响了性能和文化包容性；2)现有的阿拉伯文化感知基准工具的缺乏；3)阿拉伯方言和特定国家文化在现有模型中的评价不足。为了克服这些挑战，研究人员引入了新的数据集和基准，以评估LLMs的文化能力。Palm数据集通过提供来自所有阿拉伯国家的阿拉伯文化输入-输出指令对，填补了这些空白。然而，Palm数据集也面临一些限制，例如在资源匮乏的国家，内容通常由来自邻近国家的注释者提供，这可能导致缺乏本地语言使用者的深度和细微差别。此外，由于项目规模，一些方言变体可能没有得到详细的覆盖，限制了数据集捕捉所有语言细微差别的能力。

常用场景

经典使用场景

Palm数据集主要用于评估大型语言模型（LLMs）在阿拉伯语中的文化敏感性和包容性。该数据集涵盖了所有22个阿拉伯国家的现代标准阿拉伯语（MSA）和方言阿拉伯语（DA），并跨越了20个不同的主题。Palm数据集是第一个在国家层面覆盖所有22个阿拉伯国家的数据集，它为研究LLMs的文化和方言能力提供了宝贵的资源。

解决学术问题

Palm数据集解决了现有LLMs在处理阿拉伯语文化相关和方言特定内容时的局限性。通过提供包含MSA和DA的全面、包容性的指令，Palm帮助研究者评估和改进LLMs，以更好地理解和生成与阿拉伯文化相关的内容。此外，Palm数据集还为评估LLMs在不同国家和方言上的表现提供了一个基准，有助于识别和解决模型中存在的文化偏见和不足。

衍生相关工作

Palm数据集的发布和应用将激发更多关于LLMs文化敏感性和包容性的研究。未来可能的研究方向包括：1）开发更多类似Palm的包容性数据集，覆盖更多语言和文化背景；2）探索LLMs在处理不同文化和语言时的最佳实践；3）研究如何通过技术和方法改进LLMs的文化能力。这些研究将有助于推动LLMs在全球化环境中的广泛应用，并促进人机交互的多样性和包容性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集