five

20 news group (20ng)

收藏
Mendeley Data2024-06-29 更新2024-06-27 收录
下载链接:
https://zenodo.org/record/5256621
下载链接
链接失效反馈
官方服务:
资源简介:
20 Newsgroups (20NG) is a classical and popular dataset for experiments in text applications of machine learning techniques. It contains 18,846 newsgroups documents, partitioned almost evenly across 20 different newsgroups categories. http://qwone.com/~jason/20Newsgroups/ The files: texts.txt: Document set (text). One per line. score.txt: Document class whose index is associated with texts.txt split_<k>.pkl: pandas DataFrame with k-cross validation partition. Label Definition: (Score File) 0 atheist resources 1 computer graphics 2 computer os ms windows misc 3 computer system ibm pc hardware 4 computer system mac hardware 5 computer windows x 6 misc miscellaneous for sale 7 rec autos 8 rec motorcycles 9 rec sport baseball 10 rec sport hockey 11 science crypt 12 science electronics 13 science med 14 science space 15 society religion christian 16 talk politics guns 17 talk politics mideast 18 talk politics misc miscellaneous 19 talk religion misc miscellaneous

20新闻组(20 Newsgroups,简称20NG)是机器学习技术在文本应用领域开展实验的经典且广受欢迎的数据集。该数据集共包含18846篇新闻组文档,在20个不同的新闻组分类中分布近乎均衡。数据集官方访问地址:http://qwone.com/~jason/20Newsgroups/ 该数据集包含以下文件: 1. texts.txt:文档文本集合,每行存储一篇文档。 2. score.txt:文档类别标签文件,其索引与texts.txt中的文档一一对应。 3. split_<k>.pkl:存储k折交叉验证划分结果的pandas数据框(pandas DataFrame)。 类别标签定义(对应score文件中的索引值): 0 无神论相关资源 1 计算机图形学 2 计算机操作系统-微软Windows杂项 3 计算机系统-IBM PC硬件 4 计算机系统-Mac硬件 5 计算机Windows X 6 各类待售杂项商品 7 休闲话题-汽车 8 休闲话题-摩托车 9 休闲话题-棒球运动 10 休闲话题-曲棍球运动 11 科学领域-密码学 12 科学领域-电子学 13 科学领域-医学 14 科学领域-太空探索 15 社会议题-基督教宗教 16 政治话题-枪支相关讨论 17 政治话题-中东相关讨论 18 政治话题-其他杂项讨论 19 宗教话题-其他杂项讨论
创建时间:
2023-06-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
20 news group (20ng)是一个包含18,846个新闻组文档的经典文本分类数据集,文档均匀分布在20个不同类别中,适用于机器学习文本应用实验。数据集提供文档文本、类别标签及交叉验证分区文件。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作