sbunlp/hmblogs-v3
收藏HmBlogs: A big general Persian corpus
数据集概述
- 名称: HmBlogs
- 描述: 一个从近2000万篇博客文章中收集的通用波斯语语料库,涵盖15年,包含68亿个词元。此版本是原始作者预处理并转换为适当格式的版本,以便与🤗Datasets集成。
数据集信息
- 特征:
text: 数据类型为字符串
- 分割:
train: 包含16,896,817个样本,总字节数为45,957,987,986字节
- 下载大小: 21,312,867,175字节
- 数据集大小: 45,957,987,986字节
- 配置:
default: 数据文件路径为data/train-*
- 任务类别: 文本生成
- 语言: 波斯语
- 友好名称: HmBlogs: A big general Persian corpus
- 大小类别: 10M<n<100M
使用方法
-
可以通过以下方式加载数据集: python from datasets import load_dataset
加载整个数据集
dataset = load_dataset("sbunlp/hmblogs-v3", split="train")
按百分比加载部分数据集
dataset = load_dataset("sbunlp/hmblogs-v3", split="train[:50%]")
加载自定义分片
dataset = load_dataset("sbunlp/hmblogs-v3", data_files=["data/train-00000-of-00046.parquet", "data/train-00001-of-00046.parquet"])
引用
cite @article{DBLP:journals/corr/abs-2111-02362, author = {Hamzeh Motahari Khansari and Mehrnoush Shamsfard}, title = {HmBlogs: {A} big general Persian corpus}, journal = {CoRR}, volume = {abs/2111.02362}, year = {2021}, url = {https://arxiv.org/abs/2111.02362}, eprinttype = {arXiv}, eprint = {2111.02362}, timestamp = {Fri, 05 Nov 2021 15:25:54 +0100}, biburl = {https://dblp.org/rec/journals/corr/abs-2111-02362.bib}, bibsource = {dblp computer science bibliography, https://dblp.org} }




