TopicNet/20-Newsgroups
收藏Hugging Face2024-04-06 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/TopicNet/20-Newsgroups
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
multilinguality:
- monolingual
license: other
license_name: topicnet
license_link: >-
https://github.com/machine-intelligence-laboratory/TopicNet/blob/master/LICENSE.txt
configs:
- config_name: "20ng"
default: true
data_files:
- split: train
path: "data/20NG.csv.gz"
- split: test
path: "data/20NG_test.csv.gz"
task_categories:
- text-classification
task_ids:
- topic-classification
- multi-class-classification
- multi-label-classification
tags:
- topic-modeling
- topic-modelling
- text-clustering
- multimodal-data
- multimodal-learning
- modalities
- document-representation
---
# 20 Newsgroups
## Train
Some measurable characteristics of the dataset:
* D — number of documents
* <modality name> W — modality dictionary size (number of unique tokens)
* <modality name> len D — average document length in modality tokens (number of tokens)
* <modality name> len D uniq — average document length in unique modality tokens (number of unique tokens)
| | D | @lemmatized W | @lemmatized len D | @lemmatized len D uniq | @bigram W | @bigram len D | @bigram len D uniq |
|:------|------------:|-----------------------:|---------------------------:|--------------------------------:|-------------------:|-----------------------:|----------------------------:|
| value | 11301 | 1.0614e+06 | 93.9204 | 60.5687 | 213701 | 18.9099 | 15.0068 |
Information about document lengths in modality tokens:
| | len_total@lemmatized | len_total@bigram | len_uniq@lemmatized | len_uniq@bigram |
|:-----|-----------------------:|-------------------:|----------------------:|------------------:|
| mean | 93.9204 | 18.9099 | 60.5687 | 15.0068 |
| std | 276.901 | 66.4278 | 104.23 | 39.1756 |
| min | 0 | 0 | 0 | 0 |
| 25% | 20 | 3 | 19 | 3 |
| 50% | 42 | 8 | 35 | 8 |
| 75% | 83 | 16 | 65 | 15 |
| max | 6497 | 1528 | 1875 | 831 |
**Metadata**: known class labels (20 classes).
提供机构:
TopicNet
原始信息汇总
20 Newsgroups 数据集概述
数据集结构
- 配置名称: "20ng"
- 默认配置: 是
- 数据文件:
- 训练集:
data/20NG.csv.gz - 测试集:
data/20NG_test.csv.gz
- 训练集:
任务类别
- 文本分类
任务标识
- 主题分类
- 多类分类
- 多标签分类
标签
- 主题建模
- 文本聚类
- 多模态数据
- 多模态学习
- 文档表示
数据集特征
- 文档数量 (D): 11301
- 词形还原词典大小 (@lemmatized W): 1.0614e+06
- 词形还原平均文档长度 (@lemmatized len D): 93.9204
- 词形还原平均唯一词长度 (@lemmatized len D uniq): 60.5687
- 双词词典大小 (@bigram W): 213701
- 双词平均文档长度 (@bigram len D): 18.9099
- 双词平均唯一词长度 (@bigram len D uniq): 15.0068
文档长度信息
- 词形还原总长度 (len_total@lemmatized):
- 均值: 93.9204
- 标准差: 276.901
- 最小值: 0
- 25% 分位数: 20
- 50% 分位数: 42
- 75% 分位数: 83
- 最大值: 6497
- 双词总长度 (len_total@bigram):
- 均值: 18.9099
- 标准差: 66.4278
- 最小值: 0
- 25% 分位数: 3
- 50% 分位数: 8
- 75% 分位数: 16
- 最大值: 1528
- 词形还原唯一词长度 (len_uniq@lemmatized):
- 均值: 60.5687
- 标准差: 104.23
- 最小值: 0
- 25% 分位数: 19
- 50% 分位数: 35
- 75% 分位数: 65
- 最大值: 1875
- 双词唯一词长度 (len_uniq@bigram):
- 均值: 15.0068
- 标准差: 39.1756
- 最小值: 0
- 25% 分位数: 3
- 50% 分位数: 8
- 75% 分位数: 15
- 最大值: 831
元数据
- 已知类别标签: 20 个类别



