cointegrated/taiga_stripped_stihi
收藏Hugging Face2023-11-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cointegrated/taiga_stripped_stihi
下载链接
链接失效反馈官方服务:
资源简介:
这是从Taiga语料库中提取的一个子集,源自`stihi`(诗歌)源。数据集包含纯文本,没有形态和句法注释或元信息。除了去除注释外,文本未作其他修改。
这是从Taiga语料库中提取的一个子集,源自`stihi`(诗歌)源。数据集包含纯文本,没有形态和句法注释或元信息。除了去除注释外,文本未作其他修改。
提供机构:
cointegrated
原始信息汇总
数据集卡片 "taiga_stripped_stihi"
数据集信息
特征
- 名称: text
- 数据类型: string
- 名称: file
- 数据类型: string
分割
- 名称: train
- 字节数: 14185482821
- 样本数: 9157973
下载大小
- 大小: 7745419481
数据集大小
- 大小: 14185482821
许可证
- 类型: cc-by-sa-3.0
语言
- 类型: ru
标签
- 类型: taiga
- 类型: tayga
大小类别
- 类型: 1M<n<10M
任务类别
- 类型: text-generation
- 类型: fill-mask
数据集描述
该数据集是Taiga语料库(https://tatianashavrina.github.io/taiga_site)的一个子集,源自stihi源(即“诗歌”)。
数据集包含纯文本,没有形态和句法注释或元信息。除了去除注释外,文本未作修改。
有关更多详细信息和分析,以及带有注释或元数据的文本,请参阅语料库的网站。
Taiga的其他子集包括:proza(小说)和其他源(新闻、字幕和社交媒体)。
许可证:CC BY-SA 3.0。



