five

Curras + Baladi

收藏
arXiv2022-05-20 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2205.09692v1
下载链接
链接失效反馈
官方服务:
资源简介:
Curras + Baladi是一个针对黎凡特地区的阿拉伯语方言的形态学标注语料库,由Curras(巴勒斯坦方言)和Baladi(黎巴嫩方言)两个子语料库组成。Curras经过全面修订,Baladi则是新近标注的语料库。两者均包含详细的形态学特征标注,如词缀、词干、词性标签等,并采用LDC的SAMA词干和标签。这些语料库旨在解决阿拉伯语方言在自然语言处理中的资源不足问题,特别是在形态学分析和方言识别方面。它们可用于构建和测试针对黎凡特阿拉伯语的NLP工具和应用。

The Curras + Baladi corpus is a morphologically annotated resource for Levantine Arabic dialects, consisting of two sub-corpora: Curras (Palestinian dialect) and Baladi (Lebanese dialect). Curras has been comprehensively revised, while Baladi is a newly annotated corpus. Both corpora include detailed morphological feature annotations such as affixes, stems, part-of-speech (POS) tags, and adopt LDC SAMA stems and tags. This resource aims to address the shortage of natural language processing resources for Arabic dialects, particularly in morphological analysis and dialect identification. It can be used to develop and test NLP tools and applications tailored for Levantine Arabic.
提供机构:
斯特拉斯堡大学,比尔泽特大学,贝鲁特美国大学
创建时间:
2022-05-20
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作