Sakonii/nepalitext-language-model-dataset

Name: Sakonii/nepalitext-language-model-dataset
Creator: Sakonii
Published: 2022-10-25 06:14:22
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Sakonii/nepalitext-language-model-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

NepaliText语言建模数据集是一个包含超过1300万条尼泊尔语文本序列（短语/句子/段落）的集合，这些序列是通过结合OSCAR、cc100数据集以及从维基百科抓取的尼泊尔语文章提取而成的。该数据集主要用于预训练尼泊尔语的语言模型和词表示。数据集中可能包含其他语言的实例。

The NepaliText Language Modeling Dataset is a collection of over 13 million Nepali text sequences (phrases, sentences, and paragraphs). These sequences are extracted by combining the OSCAR, cc100 datasets, and Nepali articles crawled from Wikipedia. This dataset is primarily used for pre-training Nepali language models and word representations. The dataset may contain instances in other languages.

提供机构：

Sakonii

原始信息汇总

数据集概述

数据集名称

"NepaliText"语言模型数据集

数据集摘要

"NepaliText"语言模型数据集是一个包含超过1300万条尼泊尔语文本序列（短语/句子/段落）的集合，这些文本序列是通过合并OSCAR、cc100数据集以及从维基百科上抓取的尼泊尔文章得到的。

支持的任务和排行榜

该数据集旨在预训练尼泊尔语的语言模型和词表示。

语言

数据集主要关注尼泊尔语，但也可能包含其他语言的实例。

数据集结构

数据实例

一个示例数据实例包含一个字符串类型的文本字段。

数据字段

text: 字符串类型。

数据分割

训练集: 13141222条
测试集: 268189条

数据集创建

来源数据

数据集的来源包括OSCAR和cc100数据集以及从维基百科抓取的尼泊尔文章。

个人和敏感信息

由于数据是从多种互联网来源提取和抓取的，可能包含个人和敏感信息。在使用特别是文本生成模型进行训练之前，必须考虑这一点。

5,000+

优质数据集

54 个

任务类型

进入经典数据集