cointegrated/taiga_stripped_rest

Name: cointegrated/taiga_stripped_rest
Creator: cointegrated
Published: 2023-11-23 09:48:58
License: 暂无描述

Hugging Face2023-11-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/cointegrated/taiga_stripped_rest

下载链接

链接失效反馈

官方服务：

资源简介：

这是Taiga语料库的一个子集，包含了除stihi和proza之外的所有来源的纯文本数据，没有形态和句法注释或元信息。对于Subtitles子集，删除了所有非俄语文本；对于social子集，文本被分割成单独的数据库项或帖子及其评论。

提供机构：

cointegrated

原始信息汇总

数据集卡片 "taiga_stripped_rest"

数据集信息

特征

text: 类型为字符串
file: 类型为字符串

分割

Arzamas: 字节数 4725465，样本数 311
Interfax: 字节数 82478694，样本数 46000
Lenta: 字节数 99984639，样本数 36000
Magazines: 字节数 2295653294，样本数 39000
NPlus1: 字节数 23506941，样本数 7000
KP: 字节数 65444392，样本数 45000
Fontanka: 字节数 840679591，样本数 342683
Subtitles: 字节数 311508573，样本数 7903
social: 字节数 600396164，样本数 804356

下载和数据集大小

下载大小: 2180717682 字节
数据集大小: 4324377753 字节

许可

CC BY-SA 3.0

语言

俄语

大小类别

1M<n<10M

任务类别

文本生成
填充掩码

数据集描述

该数据集是Taiga语料库的一个子集，来源于以下源：Arzamas, Interfax, Lenta, Magazines, NPlus1, KP, Fontanka, Subtitles 和 social。数据集包含纯文本，没有形态和句法注释或元信息。

对于Subtitles子集，删除了所有非俄语文本。对于social子集，将文本分割成单独的数据库项，或者（对于LiveJournal）分割成“帖子”（定义为包含1000个以上字符的行）和随后的“评论”。

其他Taiga子集包括：proza（小说）和stihi（诗歌）。

许可：CC BY-SA 3.0。

5,000+

优质数据集

54 个

任务类型

进入经典数据集