SLPL/naab

Name: SLPL/naab
Creator: SLPL
Published: 2022-11-03 06:33:48
License: 暂无描述

Hugging Face2022-11-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SLPL/naab

下载链接

链接失效反馈

官方服务：

资源简介：

naab是一个波斯语的大规模、高质量、开源的文本语料库，包含了约130GB的数据，250百万段落和150亿单词。该数据集旨在为波斯语的自然语言处理任务提供高质量的文本资源，特别是用于语言模型训练。数据集分为训练集和测试集，分别占95%和5%。数据集的创建是为了解决波斯语等低资源语言在自然语言处理研究中数据不足的问题。数据集来源于多个公开和私有的波斯语文本资源，包括Common Crawl、MirasText、Persian Wikipedia等。数据集的使用可以通过Hugging Face的datasets库进行加载。

提供机构：

SLPL

原始信息汇总

数据集概述

数据集名称

naab: A ready-to-use plug-and-play corpus in Farsi

数据集摘要

naab 是最大的已清理且即用型的开源波斯语文本语料库，包含约130GB的数据，2.5亿个段落和150亿个单词。项目名称源自波斯语单词 ناب，意为纯净和高品质。此外，还提供了原始版本的语料库（naab-raw）和一个易于使用的预处理器，供希望创建定制语料库的用户使用。

语言

波斯语（Farsi）

数据集大小

100M<n<1B

任务类别

fill-mask
text-generation

支持的任务和排行榜

language-modeling
masked-language-modeling

数据集结构

数据实例：每个数据实例包含一个文本段落。
数据字段：text - 文本段落。
数据分割：包括train和test两个分割，分别占95%和5%。

数据集创建

来源数据：数据集由多个源数据集合并而成，包括Common Crawl、MirasText、W2C等。
初始数据收集和规范化：使用基于Linux内核命令的流式预处理器进行数据处理。

许可证

MIT

5,000+

优质数据集

54 个

任务类型

进入经典数据集