BeitTigreAI/tigre-data-monolingual-text

Name: BeitTigreAI/tigre-data-monolingual-text
Creator: BeitTigreAI
Published: 2025-11-19 03:03:31
License: 暂无描述

Hugging Face2025-11-19 更新2025-11-30 收录

下载链接：

https://hf-mirror.com/datasets/BeitTigreAI/tigre-data-monolingual-text

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是提格雷语的单语语料库，提格雷语是一种资源匮乏的南闪米特语，属于阿非罗亚细亚语系。这个数据集提供了一个大量、干净的文本语料库，对于训练基础模型如语言模型（LMs）和词向量嵌入是必不可少的。提格雷-数据1.0的目的是加速低资源自然语言处理和形态丰富语言模型的研究。

This dataset is a monolingual corpus of the Tigre language, an under-resourced South Semitic language within the Afro-Asiatic family. The dataset provides a large, clean text corpus that is essential for training foundational models such as Language Models (LMs) and word embeddings. The goal of Tigre-Data 1.0 is to accelerate research in low-resource NLP and morphologically rich language modeling.

提供机构：

BeitTigreAI

5,000+

优质数据集

54 个

任务类型

进入经典数据集