PalmX 2025
收藏arXiv2025-09-03 更新2025-09-05 收录
下载链接:
https://palmx.dlnlp.ai, https://github.com/UBC-NLP/palmx_2025
下载链接
链接失效反馈官方服务:
资源简介:
PalmX 2025是一个用于评估大型语言模型在阿拉伯文化和伊斯兰文化领域文化能力的基准数据集。数据集包括两个子任务:通用阿拉伯文化和通用伊斯兰文化,每个子任务都包含多个选择题,旨在测试模型对阿拉伯世界的传统、食物、历史、宗教习俗和语言表达等知识的理解。数据集涵盖了来自22个阿拉伯国家的广泛主题,包括传统习俗、当地礼仪、烹饪、历史事件、著名人物、地理、地方语言(方言)等。数据集由两个专业的语言学家独立审核,以确保正确性和格式规范。PalmX 2025旨在推动开发出不仅在语言上流畅,而且在文化上更具理解和适应性的阿拉伯大型语言模型。
PalmX 2025 is a benchmark dataset designed to evaluate the cultural competence of large language models (LLMs) within the framework of Arab and Islamic cultures. The dataset consists of two subtasks: General Arab Culture and General Islamic Culture. Each subtask features multiple-choice questions intended to assess models' understanding of knowledge spanning traditional customs, cuisine, history, religious practices, linguistic expressions, and other relevant domains of the Arab world. The dataset covers a wide array of topics sourced from 22 Arab countries, including traditional rituals, local etiquette, culinary culture, historical events, prominent figures, geography, regional dialects, and more. It was independently reviewed by two professional linguists to ensure accuracy and formatting compliance. PalmX 2025 aims to promote the development of Arabic large language models that are not only linguistically fluent but also culturally insightful and adaptable.
提供机构:
不列颠哥伦比亚大学, 卡塔尔计算机研究所
创建时间:
2025-09-03
搜集汇总
数据集介绍
构建方式
PalmX 2025数据集的构建采用双轨策略以确保文化覆盖的全面性。对于阿拉伯文化子任务,部分数据源自Palm训练集,通过Qwen330B转化为多选题格式;另一部分从文化知识网站抓取内容,并利用GPT-4o-mini生成文化相关多选题。伊斯兰文化子任务则结合公开竞赛题目与权威平台Mawdoo3的伊斯兰文章,同样通过GPT-4o-mini生成题目。所有数据均经专业语言学家独立评审,确保准确性、质量及格式规范,并通过答案选项随机化减少位置偏差。
特点
该数据集涵盖22个阿拉伯国家的文化及伊斯兰知识,具有高度的文化多样性和领域专业性。阿拉伯文化子任务包含习俗、历史、艺术及方言等多维度主题,伊斯兰子任务则聚焦仪式、古兰经、圣训等核心宗教内容。题目以现代标准阿拉伯语呈现,采用四选一单选题形式,干扰项设计合理以降低猜测概率。数据集划分为训练集、开发集和测试集,测试集引入新实体与低频文化项以检验模型泛化能力。
使用方法
数据集专为评估大语言模型的文化对齐能力设计,需通过似然概率方法进行多选题评估。参与者需使用解码器结构的生成模型,在13B参数限制内提交微调后的权重,禁止实时检索或RAG技术。评估时,模型需根据问题及选项计算各标签的对数似然概率,通过softmax归一化选择预测答案,最终以准确率作为核心指标。开发集可用于超参数调优,测试集保持盲评以确保公平性。
背景与挑战
背景概述
PalmX 2025数据集由不列颠哥伦比亚大学与卡塔尔计算研究所联合研发,于2025年正式发布,旨在系统评估大语言模型对阿拉伯与伊斯兰文化的认知能力。该数据集聚焦于解决自然语言处理领域中的文化偏见问题,特别是针对西方数据主导的训练范式导致的阿拉伯文化表征不足现象。其核心研究问题在于构建标准化评估框架,推动文化对齐模型的发展,覆盖22个阿拉伯国家的习俗、历史、宗教实践等多元文化维度,为阿拉伯语NLP领域的文化敏感性研究奠定了基准性基础。
当前挑战
该数据集解决的领域挑战在于大语言模型对非西方文化语境的理解薄弱问题,具体表现为对阿拉伯习俗、伊斯兰教义等复杂文化概念的机械式误读。构建过程中的技术挑战包括:多国文化知识的均衡采集与验证,需协调不同阿拉伯国家的本土专家;现代标准阿拉伯语与方言的文化语义对齐;以及通过双重人工审核机制确保宗教敏感内容的准确性,避免生成式模型引入的文化失真现象。
常用场景
经典使用场景
在阿拉伯语言模型的文化能力评估领域,PalmX 2025数据集作为首个标准化基准测试工具,被广泛用于衡量模型对阿拉伯及伊斯兰文化的理解深度。该数据集通过精心设计的多项选择题形式,覆盖了22个阿拉伯国家的风俗习惯、历史传统、宗教实践等多元文化维度,为研究者提供了系统化的评估框架。在共享任务中,参赛团队利用该数据集对模型进行微调和性能优化,显著提升了模型在文化敏感性问题上的应答准确性。
解决学术问题
PalmX 2025有效解决了大型语言模型在跨文化理解中存在的西方中心主义偏差问题,填补了阿拉伯与伊斯兰文化代表性不足的学术空白。该数据集通过构建文化对齐的评估体系,推动了模型从单纯语言流畅性向文化认知深度的转变,为多语言NLP领域的文化适应性研究提供了关键方法论支撑。其标准化测试框架使得学术界能够量化评估模型在复杂文化语境中的表现,促进了文化敏感型人工智能技术的发展。
衍生相关工作
PalmX 2025催生了多项创新性研究,例如ADAPT-MTU团队提出的全参数微调方法与RGIPT团队采用的LoRA参数高效微调策略。AYA团队在此基础上探索了数据增强技术对伊斯兰文化问题的特异性优化,而Phoenix团队则开发了结合文化语境的数据扩增管道。这些工作共同推动了阿拉伯文化计算研究范式的演进,为后续系列文化基准数据集(如AraDiCE、Jawaher等)的构建提供了方法论借鉴和评估标准参照。
以上内容由遇见数据集搜集并总结生成



