five

TopicNet/20-Newsgroups

收藏
Hugging Face2024-04-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/TopicNet/20-Newsgroups
下载链接
链接失效反馈
官方服务:
资源简介:
--- language: - en multilinguality: - monolingual license: other license_name: topicnet license_link: >- https://github.com/machine-intelligence-laboratory/TopicNet/blob/master/LICENSE.txt configs: - config_name: "20ng" default: true data_files: - split: train path: "data/20NG.csv.gz" - split: test path: "data/20NG_test.csv.gz" task_categories: - text-classification task_ids: - topic-classification - multi-class-classification - multi-label-classification tags: - topic-modeling - topic-modelling - text-clustering - multimodal-data - multimodal-learning - modalities - document-representation --- # 20 Newsgroups ## Train Some measurable characteristics of the dataset: * D — number of documents * <modality name> W — modality dictionary size (number of unique tokens) * <modality name> len D — average document length in modality tokens (number of tokens) * <modality name> len D uniq — average document length in unique modality tokens (number of unique tokens) | | D | @lemmatized W | @lemmatized len D | @lemmatized len D uniq | @bigram W | @bigram len D | @bigram len D uniq | |:------|------------:|-----------------------:|---------------------------:|--------------------------------:|-------------------:|-----------------------:|----------------------------:| | value | 11301 | 1.0614e+06 | 93.9204 | 60.5687 | 213701 | 18.9099 | 15.0068 | Information about document lengths in modality tokens: | | len_total@lemmatized | len_total@bigram | len_uniq@lemmatized | len_uniq@bigram | |:-----|-----------------------:|-------------------:|----------------------:|------------------:| | mean | 93.9204 | 18.9099 | 60.5687 | 15.0068 | | std | 276.901 | 66.4278 | 104.23 | 39.1756 | | min | 0 | 0 | 0 | 0 | | 25% | 20 | 3 | 19 | 3 | | 50% | 42 | 8 | 35 | 8 | | 75% | 83 | 16 | 65 | 15 | | max | 6497 | 1528 | 1875 | 831 | **Metadata**: known class labels (20 classes).
提供机构:
TopicNet
原始信息汇总

20 Newsgroups 数据集概述

数据集结构

  • 配置名称: "20ng"
  • 默认配置: 是
  • 数据文件:
    • 训练集: data/20NG.csv.gz
    • 测试集: data/20NG_test.csv.gz

任务类别

  • 文本分类

任务标识

  • 主题分类
  • 多类分类
  • 多标签分类

标签

  • 主题建模
  • 文本聚类
  • 多模态数据
  • 多模态学习
  • 文档表示

数据集特征

  • 文档数量 (D): 11301
  • 词形还原词典大小 (@lemmatized W): 1.0614e+06
  • 词形还原平均文档长度 (@lemmatized len D): 93.9204
  • 词形还原平均唯一词长度 (@lemmatized len D uniq): 60.5687
  • 双词词典大小 (@bigram W): 213701
  • 双词平均文档长度 (@bigram len D): 18.9099
  • 双词平均唯一词长度 (@bigram len D uniq): 15.0068

文档长度信息

  • 词形还原总长度 (len_total@lemmatized):
    • 均值: 93.9204
    • 标准差: 276.901
    • 最小值: 0
    • 25% 分位数: 20
    • 50% 分位数: 42
    • 75% 分位数: 83
    • 最大值: 6497
  • 双词总长度 (len_total@bigram):
    • 均值: 18.9099
    • 标准差: 66.4278
    • 最小值: 0
    • 25% 分位数: 3
    • 50% 分位数: 8
    • 75% 分位数: 16
    • 最大值: 1528
  • 词形还原唯一词长度 (len_uniq@lemmatized):
    • 均值: 60.5687
    • 标准差: 104.23
    • 最小值: 0
    • 25% 分位数: 19
    • 50% 分位数: 35
    • 75% 分位数: 65
    • 最大值: 1875
  • 双词唯一词长度 (len_uniq@bigram):
    • 均值: 15.0068
    • 标准差: 39.1756
    • 最小值: 0
    • 25% 分位数: 3
    • 50% 分位数: 8
    • 75% 分位数: 15
    • 最大值: 831

元数据

  • 已知类别标签: 20 个类别
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作