five

Contemporary Amharic Corpus (CACO)

收藏
arXiv2021-06-14 更新2024-06-21 收录
下载链接:
http://dx.doi.org/10.24352/ub.ovgu-2018-144
下载链接
链接失效反馈
官方服务:
资源简介:
Contemporary Amharic Corpus (CACO) 是由马格德堡大学和亚的斯亚贝巴大学联合创建的自动形态句法标记的阿姆哈拉语语料库。该数据集包含25,199份来自不同领域的文档,总计约2400万正字法单词,并进行了分词处理。数据集的创建过程中,对现有的形态分析器HornMorpho进行了改进,以实现自动标记。CACO数据集主要用于支持阿姆哈拉语的自然语言处理研究和应用,解决该语言资源匮乏的问题,特别是在缺乏大规模、干净且正确标记的语料库方面的挑战。

The Contemporary Amharic Corpus (CACO) is an automatically morphosyntactically annotated Amharic corpus jointly created by the University of Magdeburg and Addis Ababa University. This dataset contains 25,199 documents from diverse domains, totaling approximately 24 million orthographic words, and has undergone word segmentation. During the development of CACO, the existing morphological analyzer HornMorpho was improved to enable automatic annotation. The CACO dataset is primarily intended to support natural language processing (NLP) research and applications for Amharic, addressing the issue of scarce language resources for this language, particularly the challenge of lacking large-scale, clean, and properly annotated corpora.
提供机构:
马格德堡大学
创建时间:
2021-06-14
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作