google-research-datasets/newsgroup
收藏Hugging Face2024-01-18 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/google-research-datasets/newsgroup
下载链接
链接失效反馈官方服务:
资源简介:
20 Newsgroups数据集是一个包含大约20,000个新闻组文档的集合,这些文档几乎均匀分布在20个不同的新闻组中。该数据集通常用于文本分类和聚类任务。数据集是单语言的(英语),并且仅包含“From”和“Subject”标题,不包括交叉发布。数据集分为多个配置,每个配置代表一个不同的新闻组,并提供了有关数据集文件大小和示例数量的详细信息。
The 20 Newsgroups dataset is a collection of approximately 20,000 newsgroup documents, distributed almost evenly across 20 distinct newsgroups. It is commonly used for text classification and clustering tasks. This dataset is monolingual (English) and only includes the "From" and "Subject" headers, excluding cross-posts. It is divided into multiple configurations, each representing a different newsgroup, with detailed information provided on dataset file sizes and the number of examples.
提供机构:
google-research-datasets
原始信息汇总
数据集卡片 for "newsgroup"
数据集描述
数据集概述
20 Newsgroups 数据集是一个包含大约 20,000 个新闻组文档的集合,这些文档被均匀地分配到 20 个不同的新闻组中。据我所知,它最初是由 Ken Lang 收集的,可能是为了他的 Newsweeder: Learning to filter netnews 论文,尽管他没有明确提到这个集合。20 新闻组集合已成为机器学习技术在文本应用(如文本分类和文本聚类)中的实验的流行数据集。
支持的任务和排行榜
语言
数据集结构
数据实例
18828_alt.atheism
- 下载的数据集文件大小: 14.67 MB
- 生成的数据集大小: 1.67 MB
- 磁盘总使用量: 16.34 MB
train 的一个示例如下:
18828_comp.graphics
- 下载的数据集文件大小: 14.67 MB
- 生成的数据集大小: 1.66 MB
- 磁盘总使用量: 16.33 MB
train 的一个示例如下:
18828_comp.os.ms-windows.misc
- 下载的数据集文件大小: 14.67 MB
- 生成的数据集大小: 2.38 MB
- 磁盘总使用量: 17.05 MB
train 的一个示例如下:
18828_comp.sys.ibm.pc.hardware
- 下载的数据集文件大小: 14.67 MB
- 生成的数据集大小: 1.18 MB
- 磁盘总使用量: 15.85 MB
train 的一个示例如下:
18828_comp.sys.mac.hardware
- 下载的数据集文件大小: 14.67 MB
- 生成的数据集大小: 1.06 MB
- 磁盘总使用量: 15.73 MB
train 的一个示例如下:
数据字段
所有分割的数据字段都是相同的。
18828_alt.atheism
text: 一个string特征。
18828_comp.graphics
text: 一个string特征。
18828_comp.os.ms-windows.misc
text: 一个string特征。
18828_comp.sys.ibm.pc.hardware
text: 一个string特征。
18828_comp.sys.mac.hardware
text: 一个string特征。
数据分割
| name | train |
|---|---|
| 18828_alt.atheism | 799 |
| 18828_comp.graphics | 973 |
| 18828_comp.os.ms-windows.misc | 985 |
| 18828_comp.sys.ibm.pc.hardware | 982 |
| 18828_comp.sys.mac.hardware | 961 |
数据集创建
策划理由
源数据
初始数据收集和规范化
源语言生产者是谁?
注释
注释过程
谁是注释者?
个人和敏感信息
使用数据的注意事项
数据集的社会影响
偏见的讨论
其他已知限制
附加信息
数据集策展人
许可信息
引用信息
贡献
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,20 Newsgroups数据集作为经典文本分类基准,其构建方式体现了早期网络文本的采集策略。该数据集源自20世纪90年代的Usenet新闻组,由Ken Lang等人系统性地收集了约两万篇文档,覆盖了从科技、娱乐到社会议题的二十个不同主题类别。文档经过筛选,剔除了交叉发布的帖子,仅保留了“发件人”和“主题”头部信息,确保了数据的纯净性与一致性。这种基于真实网络讨论的构建方法,为后续的文本分析研究提供了丰富的语义素材。
特点
该数据集以其均衡的类别分布和真实的语言表达而著称,每个新闻组类别包含近千篇文档,总计约两万条文本实例,规模适中且便于实验操作。文档内容均为英文,涵盖了计算机硬件、体育、宗教、政治等多个领域,展现了多样化的主题与语言风格。数据以纯文本形式存储,结构简洁,仅包含原始讨论内容,避免了复杂的元数据干扰,使其成为评估文本分类与聚类算法的理想选择。
使用方法
研究人员可通过HuggingFace平台直接加载该数据集,利用其预定义的配置名称(如“bydate”版本包含训练集与测试集划分)进行模型训练与评估。在文本分类任务中,用户可提取文档的文本特征,结合机器学习或深度学习技术,构建多类别分类模型。数据集支持标准的自然语言处理流程,包括文本预处理、特征工程与模型验证,为学术研究提供了可重复的实验基础。
背景与挑战
背景概述
在自然语言处理领域,文本分类作为基础任务之一,其发展历程中亟需标准化的评估基准。20 Newsgroups数据集应运而生,由Ken Lang于上世纪九十年代创建,旨在为新闻组文档的多类别分类提供实验平台。该数据集汇集了约两万篇文档,均匀分布于二十个不同主题的新闻组,涵盖了从技术讨论到社会议题的广泛范畴。其诞生不仅推动了机器学习算法在文本分类中的应用,更成为后续研究如文本聚类、主题建模等领域的重要基石,对自然语言处理技术的演进产生了深远影响。
当前挑战
该数据集旨在解决多类别文本分类的挑战,其核心问题在于如何准确区分语义相近或主题交叉的文档类别,例如不同技术子领域或敏感社会议题的细微差别。在构建过程中,挑战主要源于数据源的异构性,包括文档长度不一、格式不规范以及噪声信息如邮件头部的干扰。此外,数据收集时需处理跨帖子排除与头部信息筛选,以确保文本纯净度,同时平衡各类别样本数量以维持数据集的代表性与公平性,这些因素共同构成了数据集构建的复杂性。
常用场景
经典使用场景
在自然语言处理领域,20 Newsgroups数据集作为文本分类任务的基准数据集,其经典使用场景聚焦于多类别新闻文档的分类研究。该数据集涵盖了从科技、体育到宗教、政治等二十个主题的新闻组文档,为机器学习模型提供了丰富的语义多样性。研究者通常利用该数据集评估分类算法在真实文本数据上的性能,探索特征提取、模型泛化能力以及类别不平衡等问题,从而推动文本分类技术的演进。
实际应用
在实际应用层面,20 Newsgroups数据集启发了众多现实场景的解决方案,例如新闻自动归档、内容过滤系统以及个性化推荐引擎的构建。基于该数据集训练的模型能够帮助媒体平台实现文章的高效分类,辅助用户快速定位感兴趣的信息。同时,其在垃圾邮件检测、论坛话题管理等领域的迁移应用,也展现了文本分类技术在信息过载时代的重要价值,为智能化信息处理提供了可靠的技术支撑。
衍生相关工作
围绕20 Newsgroups数据集,学术界衍生了一系列经典研究工作,包括早期基于朴素贝叶斯和SVM的文本分类方法比较,以及后续利用词嵌入和卷积神经网络的深度学习方法探索。这些研究不仅验证了数据集在算法评估中的普适性,还催生了如文本聚类、主题建模等相关任务的拓展。此外,该数据集常被用于迁移学习与领域自适应研究,为跨领域文本分析提供了重要的实验基础。
以上内容由遇见数据集搜集并总结生成



