TopicNet/PostNauka
收藏Hugging Face2024-07-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/TopicNet/PostNauka
下载链接
链接失效反馈官方服务:
资源简介:
PostNauka数据集是一个用于文本分类任务的俄语单语言数据集,支持主题分类、多类分类和多标签分类。数据集包含两种配置:bag-of-words和natural-order-of-words,分别对应不同的数据文件。数据集的特征包括文档数量、不同模态的字典大小、文档长度等。此外,数据集还提供了一个参考的gold-standard主题模型,包含19个主题加1个背景主题。
The PostNauka dataset is a Russian monolingual dataset designed for text classification tasks, including topic classification, multi-class classification, and multi-label classification. The dataset includes two configurations: bag-of-words and natural-order-of-words, each corresponding to different data files. The dataset features include the number of documents, dictionary size for different modalities, document length, etc. Additionally, the dataset provides a reference gold-standard topic model with 19 topics plus 1 background topic.
提供机构:
TopicNet
原始信息汇总
数据集概述
基本信息
- 语言: 俄语
- 多语言性: 单语种
- 许可证: other
- 许可证名称: topicnet
- 配置:
- bag-of-words: 默认配置,包含训练数据文件
data/bow/postnauka.csv.gz - natural-order-of-words: 包含训练数据文件
data/noow/postnauka.csv.gz
- bag-of-words: 默认配置,包含训练数据文件
- 任务类别: 文本分类
- 任务ID:
- 主题分类
- 多类分类
- 多标签分类
- 标签:
- 主题建模
- 文本聚类
- 多模态数据
- 多模态学习
- 文档表示
数据集特征
- 文档数量 (D): 3404
- 各模态字典大小 (W) 和 平均文档长度 (len D):
- @title: 字典大小 13546,平均长度 3.97944,唯一长度 3.98002
- @2gramm: 字典大小 163289,平均长度 47.9697,唯一长度 37.0029
- @3gramm: 字典大小 5848,平均长度 1.71798,唯一长度 1.30288
- @snippet: 字典大小 46033,平均长度 13.5232,唯一长度 13.5256
- @word: 字典大小 1433730,平均长度 421.189,唯一长度 254.58
- @post_tag: 字典大小 18031,平均长度 5.297,唯一长度 5.297
- @author: 字典大小 3685,平均长度 1.08255,唯一长度 1.08255
文档长度信息
- 各模态总长度 (len_total) 和 唯一长度 (len_uniq):
- @title: 总长度 3.98002,唯一长度 3.98002
- @2gramm: 总长度 47.9697,唯一长度 37.0029
- @3gramm: 总长度 1.71798,唯一长度 1.30288
- @snippet: 总长度 13.5244,唯一长度 13.5256
- @word: 总长度 421.189,唯一长度 254.58
- @post_tag: 总长度 5.297,唯一长度 5.297
- @author: 总长度 1.08255,唯一长度 1.08255
其他信息
- @snippet 模态是用于显示顶级文档的原始文本片段。
- 存在一个参考的“黄金标准”主题模型,包含19个主题和1个背景主题。相关信息可在自然词序版本的数据集中找到。



