mlengineer-ai/jomleh
收藏Hugging Face2023-04-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mlengineer-ai/jomleh
下载链接
链接失效反馈官方服务:
资源简介:
Jomleh是一个高质量的波斯语数据集,包含经过精心预处理的句子,确保每个句子仅包含波斯语字符,没有其他语言的污染。数据来自多个来源,并经过去重处理,确保每个句子都是唯一的。虽然数据集中的文本并非原创,但注重质量而非数量,确保每个句子都有用且信息丰富。Jomleh数据集由227M个波斯语句子组成,压缩文件大小为13GB,解压后为39GB。
Jomleh是一个高质量的波斯语数据集,包含经过精心预处理的句子,确保每个句子仅包含波斯语字符,没有其他语言的污染。数据来自多个来源,并经过去重处理,确保每个句子都是唯一的。虽然数据集中的文本并非原创,但注重质量而非数量,确保每个句子都有用且信息丰富。Jomleh数据集由227M个波斯语句子组成,压缩文件大小为13GB,解压后为39GB。
提供机构:
mlengineer-ai
原始信息汇总
数据集概述
名称: Jomleh
语言: 波斯语 (fa)
许可证: CC0-1.0
大小: 压缩文件13GB,解压后39GB
数据集组成: 包含227M波斯语句子,每个样本为一句波斯语句子。
数据来源:
- OSCAR (fa)
- CommonCrawl
- Leipzig
- VOA Persian
- Persian poems corpus
- Web to Corpus
- TEP: Tehran English-Persian parallel corpus
任务类别:
- fill-mask
- text-generation
任务ID: language-modeling
数据集结构:
- 由60个JSON-line文件组成,每个文件包含约190,000个样本。
- 每个样本包含字段:
id,text,source。
数据预处理:
- 确保所有句子仅包含波斯语字符,排除其他语言字符。
- 处理波斯语特有的字符编码问题,如字符的多种形态和阿拉伯字符的使用。
- 清理非波斯语字符、数字和标点。
数据去重:
- 使用
onion程序进行去重处理。
数据压缩:
- 使用Zstandard算法压缩。
统计信息:
- 总句子数: 227,404,724
- 平均句子长度 (字符数): 101.16
- 句子长度标准差: 88.86
- 平均单词数: 19.93
- 单词数标准差: 17.54
- 平均单词长度 (字符数): 4.12
- 单词长度标准差: 1.99



