TopicNet/RuWiki-Good
收藏Hugging Face2024-03-18 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/TopicNet/RuWiki-Good
下载链接
链接失效反馈官方服务:
资源简介:
RuWiki-Good数据集是从俄罗斯维基百科的2020年3月1日的转储中选出的文章,包含被标记为“добротные”(良好的)和“избранные”(精选的)的文章。数据集的主要特点包括文档数量、不同模态的词典大小、文档长度等。此外,还提供了关于文档长度的详细统计信息,包括均值、标准差、最小值、25%分位数、中位数、75%分位数和最大值。
RuWiki-Good数据集是从俄罗斯维基百科的2020年3月1日的转储中选出的文章,包含被标记为“добротные”(良好的)和“избранные”(精选的)的文章。数据集的主要特点包括文档数量、不同模态的词典大小、文档长度等。此外,还提供了关于文档长度的详细统计信息,包括均值、标准差、最小值、25%分位数、中位数、75%分位数和最大值。
提供机构:
TopicNet
原始信息汇总
RuWiki-Good
数据集概述
RuWiki-Good 数据集是从俄罗斯维基百科的 dump 文件(日期为 20200301)中精选的优质和特色文章。这些文章符合俄罗斯维基百科的“优质文章”标准(参见 俄罗斯维基百科优质文章)。
数据集特征
- 文档数量 (D): 8603
- 各模态字典大小:
- @categories W: 44493
- @lemmatized W: 1.66434e+07
- @ngramms W: 3.11727e+06
- 各模态平均文档长度:
- @categories len D: 5.1718
- @lemmatized len D: 1934.6
- @ngramms len D: 362.347
- 各模态平均文档唯一标记长度:
- @categories len D uniq: 5.17296
- @lemmatized len D uniq: 721.389
- @ngramms len D uniq: 287.695
文档长度统计
- 总长度:
- @categories: 5.17296
- @lemmatized: 1934.6
- @ngramms: 362.347
- 唯一标记长度:
- @categories: 5.17296
- @lemmatized: 721.389
- @ngramms: 287.695
- 标准差:
- @categories: 4.0102
- @lemmatized: 2065.78
- @ngramms: 384.164
- 最小值:
- @categories: 0
- @lemmatized: 55
- @ngramms: 8
- 25% 分位数:
- @categories: 2
- @lemmatized: 593
- @ngramms: 112.5
- 50% 分位数:
- @categories: 4
- @lemmatized: 1223
- @ngramms: 229
- 75% 分位数:
- @categories: 7
- @lemmatized: 2447
- @ngramms: 458
- 最大值:
- @categories: 51
- @lemmatized: 17472
- @ngramms: 3335



