NYtimes
收藏arXiv2025-09-30 收录
下载链接:
http://archive.ics.uci.edu/ml/datasets/Bag+of+Words
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了1987年1月1日至2007年6月19日期间,《纽约时报》发表的新闻稿文章,并附有文章的元数据。为了分析,随机选取了10万篇文章,并移除了低频词汇。该数据集的规模为10万篇抽样文章,其任务是进行主题一致性评估。
This dataset includes news articles published in The New York Times between January 1, 1987 and June 19, 2007, along with their associated metadata. For analytical purposes, 100,000 articles were randomly sampled, and low-frequency terms were removed. This dataset consists of 100,000 sampled articles, with its targeted task being topic coherence evaluation.
提供机构:
New York Times
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集名为'Bag of Words',包含五个大型文本集合(如NYTimes新闻文章和PubMed摘要),以词袋形式表示,总计800万实例和10万特征,适用于聚类和主题建模任务。数据集经过预处理,去除了停用词并仅保留高频词汇,但无文档级元数据或类别标签。
以上内容由遇见数据集搜集并总结生成



