five

ArabCulture

收藏
arXiv2025-02-18 更新2025-02-20 收录
下载链接:
https://huggingface.co/datasets/MBZUAI/ArabCulture
下载链接
链接失效反馈
官方服务:
资源简介:
ArabCulture是一个现代标准阿拉伯语(MSA)的常识推理数据集,涵盖13个国家的文化,包括海湾、黎凡特、北非和尼罗河流域地区。该数据集包含3482个问题,覆盖12个日常生活领域和54个细粒度子主题,反映了社会规范、传统和日常生活的各个方面。数据集由本土 speakers 从头构建并验证,以确保文化相关性和准确性。

ArabCulture is a commonsense reasoning dataset in Modern Standard Arabic (MSA) that covers the cultures of 13 countries spanning the Gulf, Levant, North Africa, and Nile River Basin regions. The dataset comprises 3482 questions, covering 12 daily life domains and 54 fine-grained sub-themes, which reflect various aspects of social norms, traditions, and daily life. It was constructed and validated from scratch by native speakers to ensure cultural relevance and accuracy.
提供机构:
Department of Natural Language Processing, MBZUAI
创建时间:
2025-02-18
搜集汇总
数据集介绍
main_image_url
构建方式
ArabCulture数据集的构建方式是通过招募13个阿拉伯国家的本地说话者来编写和验证与其各自国家相关的文化相关的问题。这些说话者都是专家,他们对该地区的文化和传统有着深入的了解。数据集涵盖12个日常生活领域,包括54个细粒度子主题,反映了阿拉伯世界的各个方面,如社会规范、传统和日常经验。构建过程中,作者们实施了严格的质量控制措施,包括对词汇准确性、语义连贯性和语境相关性的手动检查,以确保数据集的质量和文化的敏感性。
特点
ArabCulture数据集的特点是它覆盖了13个阿拉伯国家的文化,这些国家分布在海湾、黎凡特、北非和尼罗河流域。数据集由3,482个问题组成,这些问题是用现代标准阿拉伯语(MSA)编写的,旨在评估大型语言模型在文化背景下的推理能力。与现有的数据集不同,ArabCulture是从头开始构建的,而不是依赖于从其他语言翻译过来的数据集。这使得它能够更准确地反映阿拉伯世界的文化和地域差异。
使用方法
ArabCulture数据集的使用方法包括多个选择问题(MCQ)和完成任务的评估。评估是在零样本设置下进行的,这意味着模型没有接受过特定于数据集的训练。为了评估模型的文化推理能力,实验还引入了三个级别的基于位置的上下文接地:1)没有额外的位置信息;2)指定更广泛的区域(例如,海湾或黎凡特);3)指定确切的国家的位置及其区域分类。这种设置允许我们分析LLMs如何有效地将地理和文化线索纳入其推理中。实验结果表明,即使是具有高达32B参数的开放权重语言模型也难以理解阿拉伯文化的多样性,其性能在不同地区之间存在显著差异。
背景与挑战
背景概述
在阿拉伯语大型语言模型如Jais和AceGPT取得进展的同时,其在常识推理方面的评估很大程度上依赖于机器翻译的数据集,这些数据集缺乏文化深度,并可能引入以英语为中心的偏见。常识推理受到地理和文化背景的影响,现有的英语数据集无法捕捉阿拉伯世界的多样性。为了解决这个问题,研究人员引入了ArabCulture,这是一个现代标准阿拉伯语(MSA)的常识推理数据集,涵盖了海湾、黎凡特、北非和尼罗河谷的13个国家的文化。该数据集是由参与本研究的母语人士从头开始构建的,他们为各自的国家编写和验证了与文化相关的题目。ArabCulture涵盖了12个日常生活领域和54个细粒度子主题,反映了阿拉伯世界社会规范、传统和日常经历的各个方面。零样本评估表明,具有高达32B参数的开源语言模型在理解多样化的阿拉伯文化方面存在困难,不同地区的性能差异很大。这些发现突出了需要更多文化意识模型和数据集,以适应阿拉伯语世界。
当前挑战
ArabCulture数据集面临的挑战包括:1)所解决的领域问题是常识推理的挑战,因为现有的英语数据集无法捕捉阿拉伯文化的多样性;2)构建过程中遇到的挑战,包括如何确保数据的文化相关性和准确性,以及如何有效地评估大型语言模型的文化常识推理能力。
常用场景
经典使用场景
ArabCulture 数据集最常用于评估大型语言模型在阿拉伯文化中的常识推理能力。该数据集涵盖了13个国家的文化,包括海湾、黎凡特、北非和尼罗河谷地区,以及12个日常生活领域和54个细粒度子主题。通过这些数据,研究人员可以测试和评估模型在处理特定文化背景下的常识推理任务时的表现。
解决学术问题
ArabCulture 数据集解决了现有英语常识推理数据集无法捕捉阿拉伯世界多样性的问题。它通过提供由母语人士编写和验证的文化相关问题的数据集,填补了这一空白。此外,该数据集还揭示了现有语言模型在理解阿拉伯文化方面存在的差距,突出了开发更多文化感知模型和数据的必要性。
衍生相关工作
ArabCulture 数据集的发布推动了阿拉伯语常识推理领域的进一步研究。相关的工作包括开发新的评估基准,以及探索如何通过文化知识增强来提高小型语言模型的表现。此外,该数据集还促进了针对不同文化背景的语言模型的开发,以满足特定地区用户的需要。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作