IlyaGusev/rulm
收藏Hugging Face2023-03-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/IlyaGusev/rulm
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于训练俄语语言模型的数据集,包含来自多个网站(如pikabu、lenta、stihi等)的文本数据。数据集总大小为75G,包含训练、测试和验证三个分割,分别有14811026、74794和74691个样本。数据集的特征为文本(text),任务类别为文本生成(text-generation),语言为俄语(ru),大小类别为10M<n<100M。
提供机构:
IlyaGusev
原始信息汇总
数据集概述
基本信息
- 特征名称:text
- 特征类型:string
数据分割
- 训练集:
- 样本数:14811026
- 数据大小:78609111353字节
- 测试集:
- 样本数:74794
- 数据大小:397130292字节
- 验证集:
- 样本数:74691
- 数据大小:395354867字节
下载与数据集大小
- 下载大小:24170140196字节
- 数据集总大小:79401596512字节
任务与语言
- 任务类别:text-generation
- 语言:Russian (ru)
数据集规模
- 规模类别:10M<n<100M



