THUCNews 新闻数据集
收藏超神经2023-09-11 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/9277
下载链接
链接失效反馈资源简介:
THUCNews 数据集是根据新浪新闻 2005~2011 年间的历史数据筛选过滤生成,包含 74 万篇新闻文档,均为 UTF-8 纯文本格式。此数据集在原始新浪新闻分类体系的基础上,重新整合划分出 14 个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐
The THUCNews dataset is generated by filtering and selecting historical news data from Sina News between 2005 and 2011, containing 740,000 news documents all in UTF-8 plain text format. Based on the original Sina News classification system, this dataset has been reorganized and divided into 14 candidate classification categories: Finance, Lottery, Real Estate, Stocks, Home Furnishing, Education, Technology, Society, Fashion, Politics and Current Affairs, Sports, Constellation, Games, and Entertainment.
创建时间:
2023-04-11
搜集汇总
数据集介绍

背景与挑战
背景概述
THUCNews新闻数据集是一个基于新浪新闻2005~2011年历史数据构建的大规模中文文本数据集,包含74万篇UTF-8纯文本格式的新闻文档,覆盖财经、彩票、房产等14个分类类别。该数据集适用于自然语言处理任务,如文本分类和生成,具有广泛的应用价值。
以上内容由遇见数据集搜集并总结生成



