New York Times (NYTimes)

arXiv2025-09-30 收录

下载链接：

https://archive.ics.uci.edu/ml/datasets/Bag+of+Words

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了大约30万篇新闻文章，词汇量巨大。在训练样本与测试样本的比例上，分配为6比4。规模上，大约有30万篇新闻文章。该数据集的任务是对新闻文章进行分析。

This dataset contains approximately 300,000 news articles and boasts a substantial vocabulary. The training and testing samples are split at a ratio of 6:4. In terms of scale, the dataset totals around 300,000 news articles. The core task of this dataset is news article analysis.

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个词袋格式的文本集合，包含五个子集（Enron邮件、NIPS论文、KOS博客、NYTimes新闻和PubMed摘要），总计800万文档实例和10万词汇特征，适用于聚类和主题建模任务。数据经过预处理，去除了停用词并仅保留出现超过十次的词汇，但为版权原因未提供文档标识和元数据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集