cointegrated/taiga_stripped_proza
收藏Hugging Face2023-11-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cointegrated/taiga_stripped_proza
下载链接
链接失效反馈官方服务:
资源简介:
这是Taiga语料库的一个子集,源自proza(即小说)来源。数据集包含纯文本,没有形态和句法注释或元信息。除了去除注释外,文本未被修改。
这是Taiga语料库的一个子集,源自proza(即小说)来源。数据集包含纯文本,没有形态和句法注释或元信息。除了去除注释外,文本未被修改。
提供机构:
cointegrated
原始信息汇总
数据集概述
基本信息
- 数据集名称: taiga_stripped_proza
- 来源: 源自Taiga语料库的
proza源(即“小说”) - 许可证: CC BY-SA 3.0
- 语言: 俄语
数据特征
- 特征:
text: 字符串类型file: 字符串类型
数据划分
- 训练集:
- 字节数: 41147451264
- 样本数: 1732589
数据集大小
- 下载大小: 21158723805
- 数据集大小: 41147451264
标签和任务类别
- 标签:
- taiga
- tayga
- 大小类别:
- 1M<n<10M
- 任务类别:
- 文本生成
- 填充掩码
数据集描述
- 该数据集包含纯文本,不包含形态和句法注释或元信息。除了去除注释外,文本未作任何修改。



