five

Jawaher|阿拉伯语言研究数据集|自然语言处理数据集

收藏
arXiv2025-03-01 更新2025-03-06 收录
阿拉伯语言研究
自然语言处理
下载链接:
https://github.com/UBCNLP/jawaher
下载链接
链接失效反馈
资源简介:
Jawaher是一个包含多种方言的阿拉伯谚语数据集,由不列颠哥伦比亚大学等机构创建。该数据集包含10037条阿拉伯谚语,涵盖20种不同的阿拉伯方言,提供了丰富的文化多样性和语言表达。数据集的谚语配有多语言翻译和解释,旨在帮助模型理解和解释阿拉伯谚语中的文化内涵和比喻意义。
提供机构:
不列颠哥伦比亚大学(The University of British Columbia)
创建时间:
2025-03-01
AI搜集汇总
数据集介绍
main_image_url
构建方式
Jawaher数据集的构建主要通过对20种阿拉伯方言中的10037条高质量谚语进行人工收集和整理,同时配备了成语翻译和解释。谚语和解释均以阿拉伯语和英语两种语言呈现,旨在全面反映阿拉伯地区的文化多样性和语言特点。数据收集过程中,四位母语为阿拉伯语的语言专家参与了数据的筛选和验证,并咨询了来自约旦、叙利亚、阿联酋等国家的母语者,以确保数据的多样性和真实性。此外,为了提高数据质量,所有数据都经过了双重标注、分歧共识解决和试点测试,以确保标注的准确性和一致性。
使用方法
使用Jawaher数据集的方法主要包括以下几种:1. 用于评估LLM对阿拉伯谚语的理解能力。2. 用于训练LLM以理解和解释阿拉伯谚语。3. 用于研究阿拉伯方言的词汇和语法特征。4. 用于研究阿拉伯文化的特点和变化。在使用数据集时,需要考虑到数据集的特点和限制,以便更好地利用数据集的价值。
背景与挑战
背景概述
Jawaher数据集是一个旨在评估大型语言模型(LLMs)理解和解释阿拉伯谚语的基准数据集。该数据集包含了来自20个不同阿拉伯方言的10,037条高质量阿拉伯谚语,每个谚语都配有英语的成语翻译和解释。Jawaher数据集的创建旨在解决LLMs在处理文化丰富和多样化的比喻语言时的文化差距问题,特别是阿拉伯谚语。这一研究由来自不列颠哥伦比亚大学、MBZUAI和Invertible AI的研究人员Samar M. Magdy、Sang Yun Kwon、Fakhraddin Alwajih、Safaa Abdelfadil、Shady Shehata和Muhammad Abdul-Mageed等共同完成。Jawaher数据集对LLMs的文化理解和比喻语言处理能力的研究具有重要意义,有助于推动LLMs在跨文化环境下的应用和发展。
当前挑战
Jawaher数据集的挑战主要来自于LLMs在理解和解释阿拉伯谚语时的文化差距。尽管LLMs能够生成成语准确的翻译,但在生成具有文化细微差别和情境相关性的解释方面却存在困难。这表明LLMs在处理文化丰富和多样化的比喻语言时,仍然存在文化差距。为了弥合这一差距,需要持续改进模型和扩展数据集。此外,Jawaher数据集还面临着构建过程中的一些挑战,例如,如何确保数据集中包含来自不同阿拉伯方言的谚语,以及如何准确翻译和解释这些谚语。
常用场景
经典使用场景
Jawaher数据集主要被用于评估大型语言模型(LLMs)在理解和解释阿拉伯谚语方面的能力。该数据集包含了来自20种不同阿拉伯方言的10,037条高质量谚语,以及相应的英语习惯性翻译和解释。这使得Jawaher成为一个评估LLMs在处理文化丰富且多样化的比喻语言方面的有力工具。
解决学术问题
Jawaher数据集旨在解决LLMs在理解和解释阿拉伯谚语方面的文化差距问题。该数据集的引入填补了现有LLMs在处理非英语数据时表现不佳的空白,并揭示了LLMs在捕捉文化细微差别、历史背景和深层比喻意义方面的局限。这对于促进LLMs在处理跨文化情境下的语言能力具有重要意义。
实际应用
Jawaher数据集的实际应用场景包括但不限于:教育和培训,帮助非阿拉伯语母语者更好地理解和学习阿拉伯谚语;文化研究,通过分析谚语中的文化背景和历史故事,增进对阿拉伯文化的理解;语言模型开发,通过使用Jawaher数据集进行模型训练和评估,提高LLMs在处理阿拉伯语和其他语言中的比喻语言的能力。
数据集最近研究
最新研究方向
在当前大型语言模型(LLMs)在处理阿拉伯谚语等富含文化信息的语言表达时,仍存在文化差距和理解的局限性。Jawaher 数据集的引入为评估和提升 LLMs 在理解和解释阿拉伯谚语方面的能力提供了一个重要的基准。该数据集不仅包含来自不同阿拉伯方言的高质量谚语,还提供了对应的习语翻译和解释,旨在促进对 LLMs 在跨文化语境下的性能评估。研究表明,尽管 LLMs 在生成习语翻译方面表现良好,但在生成包含文化细节和背景故事的解释方面仍面临挑战。这些发现突显了持续改进模型和扩展数据集的必要性,以缩小文化差距,提升 LLMs 对富含文化内涵的非文字语言的理解能力。
相关研究论文
  • 1
    Jawaher: A Multidialectal Dataset of Arabic Proverbs for LLM Benchmarking不列颠哥伦比亚大学(The University of British Columbia) · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

TCIA: The Cancer Imaging Archive

TCIA: The Cancer Imaging Archive 是一个公开的癌症影像数据库,包含多种癌症类型的影像数据,如乳腺癌、肺癌、脑癌等。数据集还包括相关的临床数据和生物标记物信息,旨在支持癌症研究和临床应用。

www.cancerimagingarchive.net 收录

FACED

FACED数据集是由清华大学脑与智能实验室和智能技术与系统国家重点实验室共同创建,包含从123名参与者收集的32通道EEG信号,用于情感计算研究。数据集通过记录参与者观看28个情感诱发视频片段时的EEG信号构建,旨在通过EEG信号分析情感状态。创建过程中,数据经过标准化和统一预处理,设计了四个EEG分类任务。该数据集主要应用于情感识别和脑机接口领域,旨在解决情感计算中的分类问题,提高情感识别的准确性和效率。

arXiv 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

O*NET

O*NET(Occupational Information Network)是一个综合性的职业信息数据库,提供了关于各种职业的详细描述,包括技能要求、工作活动、知识领域、工作环境等。该数据集被广泛用于职业分析、教育和劳动力市场研究。

www.onetonline.org 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录