THUCNews 新闻数据集
收藏超神经2023-09-11 更新2024-05-15 收录
下载链接:
https://hyper.ai/cn/datasets/9277
下载链接
链接失效反馈官方服务:
资源简介:
THUCNews 数据集是根据新浪新闻 2005~2011 年间的历史数据筛选过滤生成,包含 74 万篇新闻文档,均为 UTF-8 纯文本格式。此数据集在原始新浪新闻分类体系的基础上,重新整合划分出 14 个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐
The THUCNews dataset is generated by filtering and screening historical data of Sina News from 2005 to 2011. It contains 740,000 news documents, all in UTF-8 plain text format. Based on the original classification system of Sina News, this dataset has been reorganized and divided into 14 candidate classification categories: finance, lottery, real estate, stocks, home furnishing, education, technology, society, fashion, politics, sports, constellation, games, and entertainment.
创建时间:
2023-04-11
搜集汇总
数据集介绍

背景与挑战
背景概述
THUCNews新闻数据集是一个基于新浪新闻2005~2011年历史数据构建的大规模中文文本数据集,包含74万篇UTF-8纯文本格式的新闻文档,覆盖财经、彩票、房产等14个分类类别。该数据集适用于自然语言处理任务,如文本分类和生成,具有广泛的应用价值。
以上内容由遇见数据集搜集并总结生成



