five

TopicNet/RuWiki-Good

收藏
Hugging Face2024-03-18 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/TopicNet/RuWiki-Good
下载链接
链接失效反馈
官方服务:
资源简介:
RuWiki-Good数据集是从俄罗斯维基百科的2020年3月1日的转储中选出的文章,包含被标记为“добротные”(良好的)和“избранные”(精选的)的文章。数据集的主要特点包括文档数量、不同模态的词典大小、文档长度等。此外,还提供了关于文档长度的详细统计信息,包括均值、标准差、最小值、25%分位数、中位数、75%分位数和最大值。

RuWiki-Good数据集是从俄罗斯维基百科的2020年3月1日的转储中选出的文章,包含被标记为“добротные”(良好的)和“избранные”(精选的)的文章。数据集的主要特点包括文档数量、不同模态的词典大小、文档长度等。此外,还提供了关于文档长度的详细统计信息,包括均值、标准差、最小值、25%分位数、中位数、75%分位数和最大值。
提供机构:
TopicNet
原始信息汇总

RuWiki-Good

数据集概述

RuWiki-Good 数据集是从俄罗斯维基百科的 dump 文件(日期为 20200301)中精选的优质和特色文章。这些文章符合俄罗斯维基百科的“优质文章”标准(参见 俄罗斯维基百科优质文章)。

数据集特征

  • 文档数量 (D): 8603
  • 各模态字典大小:
    • @categories W: 44493
    • @lemmatized W: 1.66434e+07
    • @ngramms W: 3.11727e+06
  • 各模态平均文档长度:
    • @categories len D: 5.1718
    • @lemmatized len D: 1934.6
    • @ngramms len D: 362.347
  • 各模态平均文档唯一标记长度:
    • @categories len D uniq: 5.17296
    • @lemmatized len D uniq: 721.389
    • @ngramms len D uniq: 287.695

文档长度统计

  • 总长度:
    • @categories: 5.17296
    • @lemmatized: 1934.6
    • @ngramms: 362.347
  • 唯一标记长度:
    • @categories: 5.17296
    • @lemmatized: 721.389
    • @ngramms: 287.695
  • 标准差:
    • @categories: 4.0102
    • @lemmatized: 2065.78
    • @ngramms: 384.164
  • 最小值:
    • @categories: 0
    • @lemmatized: 55
    • @ngramms: 8
  • 25% 分位数:
    • @categories: 2
    • @lemmatized: 593
    • @ngramms: 112.5
  • 50% 分位数:
    • @categories: 4
    • @lemmatized: 1223
    • @ngramms: 229
  • 75% 分位数:
    • @categories: 7
    • @lemmatized: 2447
    • @ngramms: 458
  • 最大值:
    • @categories: 51
    • @lemmatized: 17472
    • @ngramms: 3335
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作