toutiao-text-classfication-dataset
收藏github2024-05-22 更新2024-05-31 收录
下载链接:
https://github.com/aceimnorstuvwxz/toutiao-text-classfication-dataset
下载链接
链接失效反馈官方服务:
资源简介:
今日头条中文新闻(文本)分类数据集,包含382688条数据,分布于15个分类中,数据来源于今日头条客户端,采集时间为2018年05月。数据格式为每行一条数据,包含新闻ID、分类code、分类名称、新闻标题和关键词。
The Toutiao Chinese News (Text) Classification Dataset comprises 382,688 entries distributed across 15 categories. The data was sourced from the Toutiao client, with the collection period being May 2018. Each entry is formatted as a single line, containing the news ID, category code, category name, news headline, and keywords.
创建时间:
2018-05-14
原始信息汇总
中文文本分类数据集概述
数据来源
- 今日头条客户端
数据格式
- 每条数据包含五个字段,以
_!_分隔,分别是:新闻ID,分类code,分类名称,新闻标题,新闻关键词。
分类信息
- 共15个分类,每个分类有对应的code和名称,如:
100民生 故事news_story102娱乐 娱乐news_entertainment116电竞 游戏news_game
数据规模
- 总计382688条数据,分布于15个分类中。
采集时间
- 2018年05月
实验结果
- 分类性能评估结果显示,平均F1-score为84%,存在数据不均衡和分类模糊的问题。
数据集存在的问题
- 数据不均衡,部分类目数据太少。
- 部分分类之间定义模糊,如故事、文化、旅行。
- 分类不全,缺少如美食等类别。
后续优化建议
- 增加数据量。
- 完善分类体系。
- 平衡各类别数据量。
- 引入新闻正文内容。
搜集汇总
数据集介绍

构建方式
该数据集源自今日头条客户端,精心采集于2018年5月,涵盖了382,688条新闻数据,分布于15个不同的分类中。每条数据以`_!_`为分隔符,包含新闻ID、分类代码、分类名称、新闻标题及关键词五个字段。数据集的构建旨在为中文文本分类研究提供丰富的资源,确保每个分类下的数据量足以支持深度学习模型的训练与验证。
特点
此数据集的显著特点在于其广泛的新闻类别和详尽的数据字段。涵盖了从民生故事到科技新闻的多个领域,确保了研究者在不同主题上的广泛应用。然而,数据集也存在一定的局限性,如部分类别的数据量较少,以及分类间可能存在的模糊性,这些都为后续研究提供了优化空间。
使用方法
使用该数据集时,研究者可以依据新闻ID进行数据检索,利用分类代码和名称进行主题分析,同时结合新闻标题和关键词进行文本挖掘。数据集建议以0.7、0.15、0.15的比例进行训练集、验证集和测试集的划分,以确保模型的泛化能力。此外,研究者可根据实验结果对数据集进行进一步的优化和扩展。
背景与挑战
背景概述
toutiao-text-classfication-dataset,由今日头条客户端于2018年5月采集并发布,旨在为中文文本分类研究提供丰富的数据资源。该数据集包含了382,688条新闻标题及其对应的分类信息,涵盖15个不同的新闻类别,如娱乐、体育、财经等。主要研究人员或机构通过此数据集,致力于解决中文文本分类中的核心问题,即如何准确地将新闻标题归类到相应的类别中。这一研究不仅推动了自然语言处理(NLP)领域的发展,也为新闻推荐系统、信息检索等应用提供了坚实的基础。
当前挑战
尽管toutiao-text-classfication-dataset在文本分类研究中展现了其重要性,但仍面临若干挑战。首先,数据集中的类别分布不均衡,部分类目数据量过少,如股票类别仅有53条数据,这影响了模型的泛化能力。其次,某些分类之间存在模棱两可的情况,如故事、文化、旅行等,增加了分类的难度。此外,数据集仅包含新闻标题,未引入正文内容,限制了更深层次的文本分析。未来,通过增加数据量、完善分类体系、实现数据均衡分布以及引入更多文本信息,可以进一步提升数据集的应用价值。
常用场景
经典使用场景
在自然语言处理领域,toutiao-text-classfication-dataset 数据集的经典使用场景主要集中在文本分类任务中。该数据集包含了来自今日头条客户端的382,688条新闻标题及其对应的分类标签,涵盖了15个不同的新闻类别。研究者可以利用这些数据训练和评估文本分类模型,以实现对新闻标题的自动分类。通过这种方式,模型能够学习到不同类别新闻标题的特征,从而在实际应用中准确地对新输入的新闻标题进行分类。
解决学术问题
toutiao-text-classfication-dataset 数据集解决了自然语言处理领域中常见的文本分类问题。该数据集通过提供大量标注的新闻标题数据,帮助研究者开发和验证文本分类算法。这不仅有助于提升模型的分类准确性,还为研究不均衡数据集和多类别分类问题提供了宝贵的资源。此外,该数据集的引入促进了文本分类技术的发展,为学术界提供了丰富的实验数据,推动了相关领域的研究进展。
衍生相关工作
toutiao-text-classfication-dataset 数据集的发布催生了一系列相关的经典工作。研究者们基于该数据集开展了多种文本分类算法的实验,包括传统的机器学习方法和深度学习模型。例如,一些研究探讨了如何在不均衡数据集上提升分类性能,而另一些研究则专注于改进多类别分类的准确性。此外,该数据集还激发了关于文本特征提取和模型优化的研究,推动了自然语言处理技术的不断进步。
以上内容由遇见数据集搜集并总结生成



