acloudfan/newsgroups-mini
收藏Hugging Face2024-02-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/acloudfan/newsgroups-mini
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
license: mit
size_categories:
- 1K<n<10K
task_categories:
- text-classification
- sentence-similarity
pretty_name: scikit_20newsgroups
tags:
- 20newsgroups
- scikit
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
dataset_info:
features:
- name: text
dtype: string
- name: class
dtype: string
splits:
- name: train
num_bytes: 493413
num_examples: 450
download_size: 300272
dataset_size: 493413
---
The data in this dataset is a subset of 20newsgroups/SciKit dataset:
https://scikit-learn.org/0.19/modules/generated/sklearn.datasets.fetch_20newsgroups.html#sklearn.datasets.fetch_20newsgroups
---
license: mit
dataset_info:
pretty_name: 'SciKit newsgroup20 subset'
features:
- name: index
dtype: int64
- name: Text
dtype: string
- name: Label
dtype: int32
- name: Class Name
dtype: string
task_categories:
-text classification
-sentence similarity
tags:
-text classification
-sentence similarity
splits:
- name: train
num_bytes: 799164
num_examples: 750
download_size: 477299
dataset_size: 799164
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
acloudfan
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: MIT
- 大小类别: 1K<n<10K
- 标签: 20newsgroups, scikit
- 配置名称: default
数据集详情
- 数据文件路径:
- 分割: train
- 路径: data/train-*
数据集信息
-
特征:
- 名称: text
- 数据类型: string
- 名称: class
- 数据类型: string
- 名称: index
- 数据类型: int64
- 名称: Text
- 数据类型: string
- 名称: Label
- 数据类型: int32
- 名称: Class Name
- 数据类型: string
- 名称: text
-
分割:
- 名称: train
- 字节数: 493413
- 样本数: 450
- 名称: train
- 字节数: 799164
- 样本数: 750
- 名称: train
-
下载大小: 300272
-
数据集大小: 493413
-
下载大小: 477299
-
数据集大小: 799164
任务类别
- 文本分类
- 句子相似性



