five

SLPL/naab

收藏
Hugging Face2022-11-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SLPL/naab
下载链接
链接失效反馈
官方服务:
资源简介:
naab是一个波斯语的大规模、高质量、开源的文本语料库,包含了约130GB的数据,250百万段落和150亿单词。该数据集旨在为波斯语的自然语言处理任务提供高质量的文本资源,特别是用于语言模型训练。数据集分为训练集和测试集,分别占95%和5%。数据集的创建是为了解决波斯语等低资源语言在自然语言处理研究中数据不足的问题。数据集来源于多个公开和私有的波斯语文本资源,包括Common Crawl、MirasText、Persian Wikipedia等。数据集的使用可以通过Hugging Face的datasets库进行加载。
提供机构:
SLPL
原始信息汇总

数据集概述

数据集名称

  • naab: A ready-to-use plug-and-play corpus in Farsi

数据集摘要

  • naab 是最大的已清理且即用型的开源波斯语文本语料库,包含约130GB的数据,2.5亿个段落和150亿个单词。项目名称源自波斯语单词 ناب,意为纯净和高品质。此外,还提供了原始版本的语料库(naab-raw)和一个易于使用的预处理器,供希望创建定制语料库的用户使用。

语言

  • 波斯语(Farsi)

数据集大小

  • 100M<n<1B

任务类别

  • fill-mask
  • text-generation

支持的任务和排行榜

  • language-modeling
  • masked-language-modeling

数据集结构

  • 数据实例:每个数据实例包含一个文本段落。
  • 数据字段text - 文本段落。
  • 数据分割:包括traintest两个分割,分别占95%和5%。

数据集创建

  • 来源数据:数据集由多个源数据集合并而成,包括Common Crawl、MirasText、W2C等。
  • 初始数据收集和规范化:使用基于Linux内核命令的流式预处理器进行数据处理。

许可证

  • MIT
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作