mlengineer-ai/jomleh

Name: mlengineer-ai/jomleh
Creator: mlengineer-ai
Published: 2023-04-23 07:13:07
License: 暂无描述

Hugging Face2023-04-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mlengineer-ai/jomleh

下载链接

链接失效反馈

官方服务：

资源简介：

Jomleh是一个高质量的波斯语数据集，包含经过精心预处理的句子，确保每个句子仅包含波斯语字符，没有其他语言的污染。数据来自多个来源，并经过去重处理，确保每个句子都是唯一的。虽然数据集中的文本并非原创，但注重质量而非数量，确保每个句子都有用且信息丰富。Jomleh数据集由227M个波斯语句子组成，压缩文件大小为13GB，解压后为39GB。

提供机构：

mlengineer-ai

原始信息汇总

数据集概述

名称: Jomleh

语言: 波斯语 (fa)

许可证: CC0-1.0

大小: 压缩文件13GB，解压后39GB

数据集组成: 包含227M波斯语句子，每个样本为一句波斯语句子。

数据来源:

OSCAR (fa)
CommonCrawl
Leipzig
VOA Persian
Persian poems corpus
Web to Corpus
TEP: Tehran English-Persian parallel corpus

任务类别:

fill-mask
text-generation

任务ID: language-modeling

数据集结构:

由60个JSON-line文件组成，每个文件包含约190,000个样本。
每个样本包含字段：id, text, source。

数据预处理:

确保所有句子仅包含波斯语字符，排除其他语言字符。
处理波斯语特有的字符编码问题，如字符的多种形态和阿拉伯字符的使用。
清理非波斯语字符、数字和标点。

数据去重:

使用onion程序进行去重处理。

数据压缩:

使用Zstandard算法压缩。

统计信息:

总句子数: 227,404,724
平均句子长度 (字符数): 101.16
句子长度标准差: 88.86
平均单词数: 19.93
单词数标准差: 17.54
平均单词长度 (字符数): 4.12
单词长度标准差: 1.99

5,000+

优质数据集

54 个

任务类型

进入经典数据集