five

Imsidag-community/kabyle-corpus-ummto

收藏
Hugging Face2025-10-06 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/Imsidag-community/kabyle-corpus-ummto
下载链接
链接失效反馈
官方服务:
资源简介:
卡布勒段落语料库(UMMTO-DSpace)是一个包含690,917句卡布勒语的语料库,这些句子是从阿尔及利亚蒂兹乌祖穆卢德·马默里大学(Université Mouloud Mammeri de Tizi-Ouzou)的机构存储库DSpace UMMTO上公开访问的PDF文档中提取的。这些文档来源于文学与语言学院/阿马齐格语言与文化系。数据集目前尚未清理,以原始形式发布。数据集分为训练集、验证集和测试集,包含唯一标识符、段落文本、来源子语料库和原始文件行号等字段。

The Kabyle Paragraph Corpus (UMMTO-DSpace) is a corpus containing 690,917 Kabyle sentences extracted from open-access PDFs published on DSpace UMMTO, the institutional repository of Université Mouloud Mammeri de Tizi-Ouzou (Algeria). The documents originate from the Faculty of Letters and Languages / Department of Amazigh Language and Culture. The dataset is not yet cleaned and is published as is in its current form. It is split into training, validation, and test sets, and includes fields such as a unique identifier, paragraph text, origin sub-corpus, and line number in the original file.
提供机构:
Imsidag-community
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作