five

New York Times (NYTimes)

收藏
arXiv2025-09-30 收录
下载链接:
https://archive.ics.uci.edu/ml/datasets/Bag+of+Words
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了大约30万篇新闻文章,词汇量巨大。在训练样本与测试样本的比例上,分配为6比4。规模上,大约有30万篇新闻文章。该数据集的任务是对新闻文章进行分析。

This dataset contains approximately 300,000 news articles and boasts a substantial vocabulary. The training and testing samples are split at a ratio of 6:4. In terms of scale, the dataset totals around 300,000 news articles. The core task of this dataset is news article analysis.
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个词袋格式的文本集合,包含五个子集(Enron邮件、NIPS论文、KOS博客、NYTimes新闻和PubMed摘要),总计800万文档实例和10万词汇特征,适用于聚类和主题建模任务。数据经过预处理,去除了停用词并仅保留出现超过十次的词汇,但为版权原因未提供文档标识和元数据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作