yordanoswuletaw/amharic-pretraining-corpus

Name: yordanoswuletaw/amharic-pretraining-corpus
Creator: yordanoswuletaw
Published: 2025-03-11 11:06:10
License: 暂无描述

Hugging Face2025-03-11 更新2025-08-30 收录

下载链接：

https://hf-mirror.com/datasets/yordanoswuletaw/amharic-pretraining-corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Amharic Pretraining Corpus是一个用于阿姆哈拉语通用预训练任务的大型数据集，大小约为103M。它由多种文本来源组成，包括新闻文章、书籍、社交媒体帖子、政府文件以及网络内容。

Amharic Pretraining Corpus is a large-scale dataset (~103M) for general Amharic language pretraining tasks. It consists of diverse text sources, including news articles, books, social media posts, government documents, and web content, all written in Amharic.

提供机构：

yordanoswuletaw

5,000+

优质数据集

54 个

任务类型

进入经典数据集