five

Gumar Corpus

收藏
arXiv2016-09-10 更新2024-06-21 收录
下载链接:
http://camel.abudhabi.nyu.edu/gumar/
下载链接
链接失效反馈
官方服务:
资源简介:
Gumar Corpus是由纽约大学阿布扎比分校的语言建模实验室创建的大型海湾阿拉伯语语料库,包含11000万字,来源于1200部论坛小说。该数据集特别标注了文档级别的子方言信息,并进行了初步的形态学标注研究。数据集内容主要为成人使用者的语言,形式为略带规范化的类似小说文本,涵盖多个海湾国家。Gumar Corpus的应用领域包括搜索、检索、机器翻译和拼写检查等,旨在解决海湾阿拉伯语文本的自动化处理问题。

Gumar Corpus is a large-scale Gulf Arabic corpus developed by the Language Modeling Lab at New York University Abu Dhabi. It contains 110 million words sourced from 1,200 forum-based novels. This corpus is specially annotated with document-level sub-dialect information, and preliminary morphological annotation research has been conducted on its contents. The corpus primarily consists of language used by adult users, presented as mildly standardized fictional texts covering multiple Gulf countries. Application fields of the Gumar Corpus include search, information retrieval, machine translation, spell checking and other related tasks, aiming to address the challenges of automated processing for Gulf Arabic texts.
提供机构:
纽约大学阿布扎比分校
创建时间:
2016-09-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作