Aananda-giri/nepali_llm_datasets

Name: Aananda-giri/nepali_llm_datasets
Creator: Aananda-giri
Published: 2025-02-10 08:41:43
License: 暂无描述

Hugging Face2025-02-10 更新2024-12-14 收录

下载链接：

https://hf-mirror.com/datasets/Aananda-giri/nepali_llm_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含两个配置：Scrapy Engine和Nepberta。Scrapy Engine配置包含通过网页爬虫引擎收集的数据。Nepberta配置包含来自Nepberta项目的清理数据，这些数据被分割成大约500MB大小的文本块。每个文本块包含多个文章，每个文章以<|endoftext|>结尾。数据集分为训练集和测试集，训练集包含18个文本块，测试集包含5个文本块。

This dataset contains two configurations of Nepali language large model datasets. The Scrapy Engine configuration contains data collected using a web scraping engine. The Nepberta configuration contains cleaned text data derived from the Nepberta project, with each text chunk approximately 500MB, divided into multiple files.

提供机构：

Aananda-giri

5,000+

优质数据集

54 个

任务类型

进入经典数据集