five

Aananda-giri/nepali_llm_datasets

收藏
Hugging Face2025-02-10 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/Aananda-giri/nepali_llm_datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含两个配置:Scrapy Engine和Nepberta。Scrapy Engine配置包含通过网页爬虫引擎收集的数据。Nepberta配置包含来自Nepberta项目的清理数据,这些数据被分割成大约500MB大小的文本块。每个文本块包含多个文章,每个文章以<|endoftext|>结尾。数据集分为训练集和测试集,训练集包含18个文本块,测试集包含5个文本块。

This dataset contains two configurations of Nepali language large model datasets. The Scrapy Engine configuration contains data collected using a web scraping engine. The Nepberta configuration contains cleaned text data derived from the Nepberta project, with each text chunk approximately 500MB, divided into multiple files.
提供机构:
Aananda-giri
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作