ali619/corpus-dataset-normalized-for-persian-farsi

Name: ali619/corpus-dataset-normalized-for-persian-farsi
Creator: ali619
Published: 2024-06-16 18:39:45
License: 暂无描述

Hugging Face2024-06-16 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/ali619/corpus-dataset-normalized-for-persian-farsi

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含约40万篇波斯语博客文章，这些文章来自超过10个不同的网站。数据集经过标准化处理，移除了不必要的标记，适用于语言建模、创建分词器和文本生成等自然语言处理任务。

This dataset contains approximately 400k Persian blog posts gathered from more than 10 websites. The data has been normalized with unnecessary tokens removed, making it suitable for NLP tasks such as language modeling, tokenizer creation, and text generation.

提供机构：

ali619

原始信息汇总

数据集概述

数据集信息

特征:
- 名称: text
- 数据类型: string
分割:
- 名称: train
- 字节数: 2180800569
- 样本数: 384589
下载大小: 980379692
数据集大小: 2180800569

配置

配置名称: default
- 数据文件:
  - 分割: train
  - 路径: data/train-*

语言

数据集描述

该数据集包含40万篇博客文章，收集自超过10个网站。
数据已进行归一化处理，并移除了不必要的标记。
适用于语言建模、分词器创建和文本生成等NLP任务。

5,000+

优质数据集

54 个

任务类型

进入经典数据集

ali619/corpus-dataset-normalized-for-persian-farsi

数据集概述

数据集信息

配置

语言

标签

数据集描述