five

cointegrated/taiga_stripped_proza

收藏
Hugging Face2023-11-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cointegrated/taiga_stripped_proza
下载链接
链接失效反馈
官方服务:
资源简介:
这是Taiga语料库的一个子集,源自proza(即小说)来源。数据集包含纯文本,没有形态和句法注释或元信息。除了去除注释外,文本未被修改。

这是Taiga语料库的一个子集,源自proza(即小说)来源。数据集包含纯文本,没有形态和句法注释或元信息。除了去除注释外,文本未被修改。
提供机构:
cointegrated
原始信息汇总

数据集概述

基本信息

  • 数据集名称: taiga_stripped_proza
  • 来源: 源自Taiga语料库的proza源(即“小说”)
  • 许可证: CC BY-SA 3.0
  • 语言: 俄语

数据特征

  • 特征:
    • text: 字符串类型
    • file: 字符串类型

数据划分

  • 训练集:
    • 字节数: 41147451264
    • 样本数: 1732589

数据集大小

  • 下载大小: 21158723805
  • 数据集大小: 41147451264

标签和任务类别

  • 标签:
    • taiga
    • tayga
  • 大小类别:
    • 1M<n<10M
  • 任务类别:
    • 文本生成
    • 填充掩码

数据集描述

  • 该数据集包含纯文本,不包含形态和句法注释或元信息。除了去除注释外,文本未作任何修改。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作