five

Palm|阿拉伯语言多样性数据集|自然语言处理数据集

收藏
arXiv2025-03-01 更新2025-03-06 收录
阿拉伯语言多样性
自然语言处理
下载链接:
https://arxiv.org/abs/2503.00151v1
下载链接
链接失效反馈
资源简介:
Palm是一个全面的文化包容性和语言多样性数据集,覆盖了所有22个阿拉伯国家,包含现代标准阿拉伯语(MSA)和方言的双语指令(输入-响应对)。该数据集由44位来自阿拉伯世界各地的研究人员共同开发,旨在为阿拉伯社区提供一个广泛、包容的视角。Palm数据集可用于文化及方言的指令微调,以及评估LLM模型在阿拉伯世界的文化能力。
提供机构:
不列颠哥伦比亚大学、MBZUAI、Invertible AI、伯泽特大学、沙特王子大学、UM6P、开罗大学、 Ain Shams大学、大马士革大学、苏丹大学、曼努菲亚大学、努瓦克肖特大学、阿尔及利亚国立理工学院、全帆大学、阿尔法塞尔大学
创建时间:
2025-03-01
AI搜集汇总
数据集介绍
main_image_url
构建方式
Palm数据集的构建方式是通过一个由44名来自阿拉伯世界的研究人员组成的团队,历时一年共同完成的社区驱动项目。该数据集涵盖了所有22个阿拉伯国家,并以现代标准阿拉伯语(MSA)和地方方言(DA)的形式,提供了20个不同主题的指令(输入-输出对)。所有指令均由人工创建,并根据可靠的、特定于国家的来源进行了标注,确保了数据的文化和语言多样性。
特点
Palm数据集的特点在于其全面性和多样性。它覆盖了所有22个阿拉伯国家,涵盖了10种不同的阿拉伯方言,并涉及20个不同的主题领域,如庆典、地理、历史等。此外,Palm是第一个在国家级别上涵盖所有22个阿拉伯国家的数据集,并包含了MSA和地方方言的指令。该数据集完全由人工收集和审查,确保了数据的准确性和可靠性。
使用方法
Palm数据集的使用方法包括文化指导和方言指导的语言模型微调,以及评估语言模型在阿拉伯世界的文化能力。数据集被分为三个部分:训练集、公共测试集和私有测试集。训练集用于模型的文化和语言对齐训练,公共测试集用于模型的文化和方言指令评估,而私有测试集则用于公平比较不同的模型和方法的性能。
背景与挑战
背景概述
Palm数据集是一个历时一年、由44位来自阿拉伯世界的研究人员共同参与的社区驱动项目。该数据集包括来自22个阿拉伯国家的指令(输入-输出对),涵盖现代标准阿拉伯语(MSA)和阿拉伯方言(DA),涉及20个不同的主题。Palm数据集旨在提高大型语言模型(LLMs)的文化敏感性和包容性,为阿拉伯社区提供更广泛、更具包容性的视角。该数据集由来自世界各地的阿拉伯世界研究人员团队创建,旨在为文化感知和方言感知的阿拉伯LLMs提供基准和评估工具。
当前挑战
Palm数据集面临的挑战包括:1)阿拉伯方言在当前语言模型中的代表性不足,影响了性能和文化包容性;2)现有的阿拉伯文化感知基准工具的缺乏;3)阿拉伯方言和特定国家文化在现有模型中的评价不足。为了克服这些挑战,研究人员引入了新的数据集和基准,以评估LLMs的文化能力。Palm数据集通过提供来自所有阿拉伯国家的阿拉伯文化输入-输出指令对,填补了这些空白。然而,Palm数据集也面临一些限制,例如在资源匮乏的国家,内容通常由来自邻近国家的注释者提供,这可能导致缺乏本地语言使用者的深度和细微差别。此外,由于项目规模,一些方言变体可能没有得到详细的覆盖,限制了数据集捕捉所有语言细微差别的能力。
常用场景
经典使用场景
Palm数据集主要用于评估大型语言模型(LLMs)在阿拉伯语中的文化敏感性和包容性。该数据集涵盖了所有22个阿拉伯国家的现代标准阿拉伯语(MSA)和方言阿拉伯语(DA),并跨越了20个不同的主题。Palm数据集是第一个在国家层面覆盖所有22个阿拉伯国家的数据集,它为研究LLMs的文化和方言能力提供了宝贵的资源。
解决学术问题
Palm数据集解决了现有LLMs在处理阿拉伯语文化相关和方言特定内容时的局限性。通过提供包含MSA和DA的全面、包容性的指令,Palm帮助研究者评估和改进LLMs,以更好地理解和生成与阿拉伯文化相关的内容。此外,Palm数据集还为评估LLMs在不同国家和方言上的表现提供了一个基准,有助于识别和解决模型中存在的文化偏见和不足。
衍生相关工作
Palm数据集的发布和应用将激发更多关于LLMs文化敏感性和包容性的研究。未来可能的研究方向包括:1)开发更多类似Palm的包容性数据集,覆盖更多语言和文化背景;2)探索LLMs在处理不同文化和语言时的最佳实践;3)研究如何通过技术和方法改进LLMs的文化能力。这些研究将有助于推动LLMs在全球化环境中的广泛应用,并促进人机交互的多样性和包容性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

SuMeyYao/ysmpubmedclt

该数据集的许可证为apache-2.0,主要用于表格问答任务,数据集语言为英语,大小介于1亿到10亿之间。

hugging_face 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

FSDD

FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。

github.com 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录