five

1.5 billion words Arabic Corpus

收藏
arXiv2016-11-13 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/1611.04033v1
下载链接
链接失效反馈
官方服务:
资源简介:
1.5亿词阿拉伯语语料库是由Ibrahim Abu El-khair创建,旨在构建一个现代阿拉伯语语言语料库。该语料库包含超过五百万篇报纸文章,总计超过15亿词,其中约300万独特词汇。数据来源于八个阿拉伯国家的十个主要新闻源,覆盖了十四年的时间跨度。语料库采用UTF-8和Windows CP-1256两种编码,并使用SGML和XML标记语言进行标记。该语料库主要用于信息检索、计算语言学和自然语言处理领域的研究,以解决阿拉伯语语料库资源相对匮乏的问题。

The 150-million-word Arabic corpus was developed by Ibrahim Abu El-khair to build a modern Arabic language resource corpus. It contains over five million newspaper articles, totaling more than 1.5 billion words and encompassing approximately 3 million unique lexical items. The corpus data is collected from ten major news outlets across eight Arab countries, spanning a 14-year period. It adopts two encoding standards: UTF-8 and Windows CP-1256, and is annotated with SGML and XML markup languages. This corpus is primarily utilized for research in the fields of information retrieval, computational linguistics and natural language processing, aiming to address the relative scarcity of Arabic language corpus resources.
提供机构:
乌姆阿尔库拉大学-沙特阿拉伯社会科学学院信息科学系,埃及米尼亚大学艺术学院图书馆与信息科学系
创建时间:
2016-11-13
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作