five

Jawaher

收藏
arXiv2025-03-01 更新2025-03-06 收录
下载链接:
https://github.com/UBCNLP/jawaher
下载链接
链接失效反馈
资源简介:
Jawaher是一个包含多种方言的阿拉伯谚语数据集,由不列颠哥伦比亚大学等机构创建。该数据集包含10037条阿拉伯谚语,涵盖20种不同的阿拉伯方言,提供了丰富的文化多样性和语言表达。数据集的谚语配有多语言翻译和解释,旨在帮助模型理解和解释阿拉伯谚语中的文化内涵和比喻意义。
提供机构:
不列颠哥伦比亚大学(The University of British Columbia)
创建时间:
2025-03-01
AI搜集汇总
数据集介绍
main_image_url
构建方式
Jawaher数据集的构建主要通过对20种阿拉伯方言中的10037条高质量谚语进行人工收集和整理,同时配备了成语翻译和解释。谚语和解释均以阿拉伯语和英语两种语言呈现,旨在全面反映阿拉伯地区的文化多样性和语言特点。数据收集过程中,四位母语为阿拉伯语的语言专家参与了数据的筛选和验证,并咨询了来自约旦、叙利亚、阿联酋等国家的母语者,以确保数据的多样性和真实性。此外,为了提高数据质量,所有数据都经过了双重标注、分歧共识解决和试点测试,以确保标注的准确性和一致性。
使用方法
使用Jawaher数据集的方法主要包括以下几种:1. 用于评估LLM对阿拉伯谚语的理解能力。2. 用于训练LLM以理解和解释阿拉伯谚语。3. 用于研究阿拉伯方言的词汇和语法特征。4. 用于研究阿拉伯文化的特点和变化。在使用数据集时,需要考虑到数据集的特点和限制,以便更好地利用数据集的价值。
背景与挑战
背景概述
Jawaher数据集是一个旨在评估大型语言模型(LLMs)理解和解释阿拉伯谚语的基准数据集。该数据集包含了来自20个不同阿拉伯方言的10,037条高质量阿拉伯谚语,每个谚语都配有英语的成语翻译和解释。Jawaher数据集的创建旨在解决LLMs在处理文化丰富和多样化的比喻语言时的文化差距问题,特别是阿拉伯谚语。这一研究由来自不列颠哥伦比亚大学、MBZUAI和Invertible AI的研究人员Samar M. Magdy、Sang Yun Kwon、Fakhraddin Alwajih、Safaa Abdelfadil、Shady Shehata和Muhammad Abdul-Mageed等共同完成。Jawaher数据集对LLMs的文化理解和比喻语言处理能力的研究具有重要意义,有助于推动LLMs在跨文化环境下的应用和发展。
当前挑战
Jawaher数据集的挑战主要来自于LLMs在理解和解释阿拉伯谚语时的文化差距。尽管LLMs能够生成成语准确的翻译,但在生成具有文化细微差别和情境相关性的解释方面却存在困难。这表明LLMs在处理文化丰富和多样化的比喻语言时,仍然存在文化差距。为了弥合这一差距,需要持续改进模型和扩展数据集。此外,Jawaher数据集还面临着构建过程中的一些挑战,例如,如何确保数据集中包含来自不同阿拉伯方言的谚语,以及如何准确翻译和解释这些谚语。
常用场景
经典使用场景
Jawaher数据集主要被用于评估大型语言模型(LLMs)在理解和解释阿拉伯谚语方面的能力。该数据集包含了来自20种不同阿拉伯方言的10,037条高质量谚语,以及相应的英语习惯性翻译和解释。这使得Jawaher成为一个评估LLMs在处理文化丰富且多样化的比喻语言方面的有力工具。
解决学术问题
Jawaher数据集旨在解决LLMs在理解和解释阿拉伯谚语方面的文化差距问题。该数据集的引入填补了现有LLMs在处理非英语数据时表现不佳的空白,并揭示了LLMs在捕捉文化细微差别、历史背景和深层比喻意义方面的局限。这对于促进LLMs在处理跨文化情境下的语言能力具有重要意义。
实际应用
Jawaher数据集的实际应用场景包括但不限于:教育和培训,帮助非阿拉伯语母语者更好地理解和学习阿拉伯谚语;文化研究,通过分析谚语中的文化背景和历史故事,增进对阿拉伯文化的理解;语言模型开发,通过使用Jawaher数据集进行模型训练和评估,提高LLMs在处理阿拉伯语和其他语言中的比喻语言的能力。
数据集最近研究
最新研究方向
在当前大型语言模型(LLMs)在处理阿拉伯谚语等富含文化信息的语言表达时,仍存在文化差距和理解的局限性。Jawaher 数据集的引入为评估和提升 LLMs 在理解和解释阿拉伯谚语方面的能力提供了一个重要的基准。该数据集不仅包含来自不同阿拉伯方言的高质量谚语,还提供了对应的习语翻译和解释,旨在促进对 LLMs 在跨文化语境下的性能评估。研究表明,尽管 LLMs 在生成习语翻译方面表现良好,但在生成包含文化细节和背景故事的解释方面仍面临挑战。这些发现突显了持续改进模型和扩展数据集的必要性,以缩小文化差距,提升 LLMs 对富含文化内涵的非文字语言的理解能力。
相关研究论文
  • 1
    Jawaher: A Multidialectal Dataset of Arabic Proverbs for LLM Benchmarking不列颠哥伦比亚大学(The University of British Columbia) · 2025年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作