five

TopicNet/PostNauka

收藏
Hugging Face2024-07-21 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/TopicNet/PostNauka
下载链接
链接失效反馈
官方服务:
资源简介:
PostNauka数据集是一个用于文本分类任务的俄语单语言数据集,支持主题分类、多类分类和多标签分类。数据集包含两种配置:bag-of-words和natural-order-of-words,分别对应不同的数据文件。数据集的特征包括文档数量、不同模态的字典大小、文档长度等。此外,数据集还提供了一个参考的gold-standard主题模型,包含19个主题加1个背景主题。

The PostNauka dataset is a Russian monolingual dataset designed for text classification tasks, including topic classification, multi-class classification, and multi-label classification. The dataset includes two configurations: bag-of-words and natural-order-of-words, each corresponding to different data files. The dataset features include the number of documents, dictionary size for different modalities, document length, etc. Additionally, the dataset provides a reference gold-standard topic model with 19 topics plus 1 background topic.
提供机构:
TopicNet
原始信息汇总

数据集概述

基本信息

  • 语言: 俄语
  • 多语言性: 单语种
  • 许可证: other
  • 许可证名称: topicnet
  • 配置:
    • bag-of-words: 默认配置,包含训练数据文件 data/bow/postnauka.csv.gz
    • natural-order-of-words: 包含训练数据文件 data/noow/postnauka.csv.gz
  • 任务类别: 文本分类
  • 任务ID:
    • 主题分类
    • 多类分类
    • 多标签分类
  • 标签:
    • 主题建模
    • 文本聚类
    • 多模态数据
    • 多模态学习
    • 文档表示

数据集特征

  • 文档数量 (D): 3404
  • 各模态字典大小 (W)平均文档长度 (len D):
    • @title: 字典大小 13546,平均长度 3.97944,唯一长度 3.98002
    • @2gramm: 字典大小 163289,平均长度 47.9697,唯一长度 37.0029
    • @3gramm: 字典大小 5848,平均长度 1.71798,唯一长度 1.30288
    • @snippet: 字典大小 46033,平均长度 13.5232,唯一长度 13.5256
    • @word: 字典大小 1433730,平均长度 421.189,唯一长度 254.58
    • @post_tag: 字典大小 18031,平均长度 5.297,唯一长度 5.297
    • @author: 字典大小 3685,平均长度 1.08255,唯一长度 1.08255

文档长度信息

  • 各模态总长度 (len_total)唯一长度 (len_uniq):
    • @title: 总长度 3.98002,唯一长度 3.98002
    • @2gramm: 总长度 47.9697,唯一长度 37.0029
    • @3gramm: 总长度 1.71798,唯一长度 1.30288
    • @snippet: 总长度 13.5244,唯一长度 13.5256
    • @word: 总长度 421.189,唯一长度 254.58
    • @post_tag: 总长度 5.297,唯一长度 5.297
    • @author: 总长度 1.08255,唯一长度 1.08255

其他信息

  • @snippet 模态是用于显示顶级文档的原始文本片段。
  • 存在一个参考的“黄金标准”主题模型,包含19个主题和1个背景主题。相关信息可在自然词序版本的数据集中找到。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作