five

mlengineer-ai/jomleh

收藏
Hugging Face2023-04-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mlengineer-ai/jomleh
下载链接
链接失效反馈
官方服务:
资源简介:
Jomleh是一个高质量的波斯语数据集,包含经过精心预处理的句子,确保每个句子仅包含波斯语字符,没有其他语言的污染。数据来自多个来源,并经过去重处理,确保每个句子都是唯一的。虽然数据集中的文本并非原创,但注重质量而非数量,确保每个句子都有用且信息丰富。Jomleh数据集由227M个波斯语句子组成,压缩文件大小为13GB,解压后为39GB。

Jomleh是一个高质量的波斯语数据集,包含经过精心预处理的句子,确保每个句子仅包含波斯语字符,没有其他语言的污染。数据来自多个来源,并经过去重处理,确保每个句子都是唯一的。虽然数据集中的文本并非原创,但注重质量而非数量,确保每个句子都有用且信息丰富。Jomleh数据集由227M个波斯语句子组成,压缩文件大小为13GB,解压后为39GB。
提供机构:
mlengineer-ai
原始信息汇总

数据集概述

名称: Jomleh

语言: 波斯语 (fa)

许可证: CC0-1.0

大小: 压缩文件13GB,解压后39GB

数据集组成: 包含227M波斯语句子,每个样本为一句波斯语句子。

数据来源:

  • OSCAR (fa)
  • CommonCrawl
  • Leipzig
  • VOA Persian
  • Persian poems corpus
  • Web to Corpus
  • TEP: Tehran English-Persian parallel corpus

任务类别:

  • fill-mask
  • text-generation

任务ID: language-modeling

数据集结构:

  • 由60个JSON-line文件组成,每个文件包含约190,000个样本。
  • 每个样本包含字段:id, text, source

数据预处理:

  • 确保所有句子仅包含波斯语字符,排除其他语言字符。
  • 处理波斯语特有的字符编码问题,如字符的多种形态和阿拉伯字符的使用。
  • 清理非波斯语字符、数字和标点。

数据去重:

  • 使用onion程序进行去重处理。

数据压缩:

  • 使用Zstandard算法压缩。

统计信息:

  • 总句子数: 227,404,724
  • 平均句子长度 (字符数): 101.16
  • 句子长度标准差: 88.86
  • 平均单词数: 19.93
  • 单词数标准差: 17.54
  • 平均单词长度 (字符数): 4.12
  • 单词长度标准差: 1.99
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作