five

ali619/corpus-dataset-normalized-for-persian-farsi

收藏
Hugging Face2024-06-16 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/ali619/corpus-dataset-normalized-for-persian-farsi
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含约40万篇波斯语博客文章,这些文章来自超过10个不同的网站。数据集经过标准化处理,移除了不必要的标记,适用于语言建模、创建分词器和文本生成等自然语言处理任务。

This dataset contains approximately 400k Persian blog posts gathered from more than 10 websites. The data has been normalized with unnecessary tokens removed, making it suitable for NLP tasks such as language modeling, tokenizer creation, and text generation.
提供机构:
ali619
原始信息汇总

数据集概述

数据集信息

  • 特征:

    • 名称: text
    • 数据类型: string
  • 分割:

    • 名称: train
    • 字节数: 2180800569
    • 样本数: 384589
  • 下载大小: 980379692

  • 数据集大小: 2180800569

配置

  • 配置名称: default
    • 数据文件:
      • 分割: train
      • 路径: data/train-*

语言

  • fa

标签

  • farsi
  • persian
  • corpus
  • normalized

数据集描述

  • 该数据集包含40万篇博客文章,收集自超过10个网站。
  • 数据已进行归一化处理,并移除了不必要的标记。
  • 适用于语言建模、分词器创建和文本生成等NLP任务。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作