five

新闻分类

收藏
阿里云天池2026-05-16 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/119797
下载链接
链接失效反馈
官方服务:
资源简介:
本文中所用的数据集清华NLP组提供的THUCNews新闻文本分类数据集的一个子集(原始的数据集大约74万篇文档,训练起来需要花较长的时间)。 本次训练使用了其中的体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐10个分类,每个分类6500条,总共65000条新闻数据。每个分类6500条,总共65000条新闻数据。数据集划分如下: cnews.train.txt: 训练集(50000条) cnews.val.txt: 验证集(5000条) cnews.test.txt: 测试集(10000条)

The dataset utilized in this paper is a subset of the THUCNews news text classification dataset provided by the Tsinghua University NLP Group. The original dataset contains approximately 740,000 documents, which requires a long training time. For this training task, we selected 10 categories from the dataset: sports, finance, real estate, home furnishing, education, technology, fashion, current politics, games, and entertainment, with 6,500 samples per category, resulting in a total of 65,000 news data samples. The dataset is split as follows: - cnews.train.txt: training set (50,000 samples) - cnews.val.txt: validation set (5,000 samples) - cnews.test.txt: test set (10,000 samples)
提供机构:
阿里云天池
创建时间:
2022-01-24
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是清华NLP组THUCNews新闻文本分类数据集的子集,包含10个新闻类别(如体育、财经、科技等),每个类别6500条数据,总计65000条中文新闻文本。数据集已划分为训练集、验证集和测试集,适用于新闻分类任务的模型训练和评估。
以上内容由遇见数据集搜集并总结生成

社区讨论

该数据集可通过下载链接跳转到国家科技资源共享服务平台后根据要求申请下载。需要注册平台账号后加入数据订单并填写数据使用用途后待人工审核后下载。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作