five

Jawaher

收藏
arXiv2025-03-01 更新2025-03-06 收录
下载链接:
https://github.com/UBCNLP/jawaher
下载链接
链接失效反馈
官方服务:
资源简介:
Jawaher是一个包含多种方言的阿拉伯谚语数据集,由不列颠哥伦比亚大学等机构创建。该数据集包含10037条阿拉伯谚语,涵盖20种不同的阿拉伯方言,提供了丰富的文化多样性和语言表达。数据集的谚语配有多语言翻译和解释,旨在帮助模型理解和解释阿拉伯谚语中的文化内涵和比喻意义。

Jawaher is an Arabic proverb dataset covering multiple dialects, developed by the University of British Columbia and other institutions. This dataset contains 10,037 Arabic proverbs spanning 20 distinct Arabic dialects, offering rich cultural diversity and diverse linguistic expressions. Each proverb in the dataset is accompanied by multilingual translations and explanations, aiming to help models understand and interpret the cultural connotations and figurative meanings contained in Arabic proverbs.
提供机构:
不列颠哥伦比亚大学(The University of British Columbia)
创建时间:
2025-03-01
搜集汇总
数据集介绍
main_image_url
构建方式
Jawaher数据集的构建主要通过对20种阿拉伯方言中的10037条高质量谚语进行人工收集和整理,同时配备了成语翻译和解释。谚语和解释均以阿拉伯语和英语两种语言呈现,旨在全面反映阿拉伯地区的文化多样性和语言特点。数据收集过程中,四位母语为阿拉伯语的语言专家参与了数据的筛选和验证,并咨询了来自约旦、叙利亚、阿联酋等国家的母语者,以确保数据的多样性和真实性。此外,为了提高数据质量,所有数据都经过了双重标注、分歧共识解决和试点测试,以确保标注的准确性和一致性。
使用方法
使用Jawaher数据集的方法主要包括以下几种:1. 用于评估LLM对阿拉伯谚语的理解能力。2. 用于训练LLM以理解和解释阿拉伯谚语。3. 用于研究阿拉伯方言的词汇和语法特征。4. 用于研究阿拉伯文化的特点和变化。在使用数据集时,需要考虑到数据集的特点和限制,以便更好地利用数据集的价值。
背景与挑战
背景概述
Jawaher数据集是一个旨在评估大型语言模型(LLMs)理解和解释阿拉伯谚语的基准数据集。该数据集包含了来自20个不同阿拉伯方言的10,037条高质量阿拉伯谚语,每个谚语都配有英语的成语翻译和解释。Jawaher数据集的创建旨在解决LLMs在处理文化丰富和多样化的比喻语言时的文化差距问题,特别是阿拉伯谚语。这一研究由来自不列颠哥伦比亚大学、MBZUAI和Invertible AI的研究人员Samar M. Magdy、Sang Yun Kwon、Fakhraddin Alwajih、Safaa Abdelfadil、Shady Shehata和Muhammad Abdul-Mageed等共同完成。Jawaher数据集对LLMs的文化理解和比喻语言处理能力的研究具有重要意义,有助于推动LLMs在跨文化环境下的应用和发展。
当前挑战
Jawaher数据集的挑战主要来自于LLMs在理解和解释阿拉伯谚语时的文化差距。尽管LLMs能够生成成语准确的翻译,但在生成具有文化细微差别和情境相关性的解释方面却存在困难。这表明LLMs在处理文化丰富和多样化的比喻语言时,仍然存在文化差距。为了弥合这一差距,需要持续改进模型和扩展数据集。此外,Jawaher数据集还面临着构建过程中的一些挑战,例如,如何确保数据集中包含来自不同阿拉伯方言的谚语,以及如何准确翻译和解释这些谚语。
常用场景
经典使用场景
Jawaher数据集主要被用于评估大型语言模型(LLMs)在理解和解释阿拉伯谚语方面的能力。该数据集包含了来自20种不同阿拉伯方言的10,037条高质量谚语,以及相应的英语习惯性翻译和解释。这使得Jawaher成为一个评估LLMs在处理文化丰富且多样化的比喻语言方面的有力工具。
解决学术问题
Jawaher数据集旨在解决LLMs在理解和解释阿拉伯谚语方面的文化差距问题。该数据集的引入填补了现有LLMs在处理非英语数据时表现不佳的空白,并揭示了LLMs在捕捉文化细微差别、历史背景和深层比喻意义方面的局限。这对于促进LLMs在处理跨文化情境下的语言能力具有重要意义。
实际应用
Jawaher数据集的实际应用场景包括但不限于:教育和培训,帮助非阿拉伯语母语者更好地理解和学习阿拉伯谚语;文化研究,通过分析谚语中的文化背景和历史故事,增进对阿拉伯文化的理解;语言模型开发,通过使用Jawaher数据集进行模型训练和评估,提高LLMs在处理阿拉伯语和其他语言中的比喻语言的能力。
数据集最近研究
最新研究方向
在当前大型语言模型(LLMs)在处理阿拉伯谚语等富含文化信息的语言表达时,仍存在文化差距和理解的局限性。Jawaher 数据集的引入为评估和提升 LLMs 在理解和解释阿拉伯谚语方面的能力提供了一个重要的基准。该数据集不仅包含来自不同阿拉伯方言的高质量谚语,还提供了对应的习语翻译和解释,旨在促进对 LLMs 在跨文化语境下的性能评估。研究表明,尽管 LLMs 在生成习语翻译方面表现良好,但在生成包含文化细节和背景故事的解释方面仍面临挑战。这些发现突显了持续改进模型和扩展数据集的必要性,以缩小文化差距,提升 LLMs 对富含文化内涵的非文字语言的理解能力。
相关研究论文
  • 1
    Jawaher: A Multidialectal Dataset of Arabic Proverbs for LLM Benchmarking不列颠哥伦比亚大学(The University of British Columbia) · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作