Sakonii/nepalitext-language-model-dataset
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Sakonii/nepalitext-language-model-dataset
下载链接
链接失效反馈官方服务:
资源简介:
NepaliText语言建模数据集是一个包含超过1300万条尼泊尔语文本序列(短语/句子/段落)的集合,这些序列是通过结合OSCAR、cc100数据集以及从维基百科抓取的尼泊尔语文章提取而成的。该数据集主要用于预训练尼泊尔语的语言模型和词表示。数据集中可能包含其他语言的实例。
The NepaliText Language Modeling Dataset is a collection of over 13 million Nepali text sequences (phrases, sentences, and paragraphs). These sequences are extracted by combining the OSCAR, cc100 datasets, and Nepali articles crawled from Wikipedia. This dataset is primarily used for pre-training Nepali language models and word representations. The dataset may contain instances in other languages.
提供机构:
Sakonii
原始信息汇总
数据集概述
数据集名称
"NepaliText"语言模型数据集
数据集摘要
"NepaliText"语言模型数据集是一个包含超过1300万条尼泊尔语文本序列(短语/句子/段落)的集合,这些文本序列是通过合并OSCAR、cc100数据集以及从维基百科上抓取的尼泊尔文章得到的。
支持的任务和排行榜
该数据集旨在预训练尼泊尔语的语言模型和词表示。
语言
数据集主要关注尼泊尔语,但也可能包含其他语言的实例。
数据集结构
数据实例
一个示例数据实例包含一个字符串类型的文本字段。
数据字段
text: 字符串类型。
数据分割
- 训练集: 13141222条
- 测试集: 268189条
数据集创建
来源数据
数据集的来源包括OSCAR和cc100数据集以及从维基百科抓取的尼泊尔文章。
个人和敏感信息
由于数据是从多种互联网来源提取和抓取的,可能包含个人和敏感信息。在使用特别是文本生成模型进行训练之前,必须考虑这一点。



