mteb/twentynewsgroups-clustering
收藏Hugging Face2025-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/twentynewsgroups-clustering
下载链接
链接失效反馈官方服务:
资源简介:
TwentyNewsgroupsClustering.v2数据集是基于20个新闻组数据集的主题进行聚类的版本。它是一个单语言(英语)的数据集,用于文本分类任务。数据集包含了约59545个样本,每个样本是一个新闻文本,文本长度从11到120字符不等。数据集共有20个唯一的标签,表示不同的新闻组类别。
The TwentyNewsgroupsClustering.v2 dataset is a clustering version of the 20 Newsgroups dataset based on the subject. It is a monolingual (English) dataset for text classification tasks. The dataset contains about 59545 samples, each being a news text, with text lengths ranging from 11 to 120 characters. There are 20 unique labels in the dataset, representing different newsgroup categories.
提供机构:
mteb
原始信息汇总
数据集语言信息
- 语言: 英语



