five

mteb/twentynewsgroups-clustering

收藏
Hugging Face2025-05-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/mteb/twentynewsgroups-clustering
下载链接
链接失效反馈
官方服务:
资源简介:
TwentyNewsgroupsClustering.v2数据集是基于20个新闻组数据集的主题进行聚类的版本。它是一个单语言(英语)的数据集,用于文本分类任务。数据集包含了约59545个样本,每个样本是一个新闻文本,文本长度从11到120字符不等。数据集共有20个唯一的标签,表示不同的新闻组类别。

The TwentyNewsgroupsClustering.v2 dataset is a clustering version of the 20 Newsgroups dataset based on the subject. It is a monolingual (English) dataset for text classification tasks. The dataset contains about 59545 samples, each being a news text, with text lengths ranging from 11 to 120 characters. There are 20 unique labels in the dataset, representing different newsgroup categories.
提供机构:
mteb
原始信息汇总

数据集语言信息

  • 语言: 英语
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作