toutiao-text-classfication-dataset

github2020-12-09 更新2024-05-31 收录

下载链接：

https://github.com/YvonneJXD/toutiao-text-classfication-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

今日头条中文新闻（文本）分类数据集，包含382688条数据，分布于15个分类中，数据格式为每行一条数据，包含新闻ID、分类code、分类名称、新闻标题和关键词。数据采集时间为2018年05月。

The Toutiao Chinese News (Text) Classification Dataset comprises 382,688 entries distributed across 15 categories. Each entry is formatted as a single line, containing the news ID, category code, category name, news title, and keywords. The data was collected in May 2018.

创建时间：

2019-05-05

原始信息汇总

中文文本分类数据集概述

数据来源

今日头条客户端

数据格式

每条数据包含五个字段，以_!_分割，分别是：新闻ID，分类code，分类名称，新闻字符串（仅含标题），新闻关键词。

分类code与名称

100: 民生故事 (news_story)
101: 文化 (news_culture)
102: 娱乐 (news_entertainment)
103: 体育 (news_sports)
104: 财经 (news_finance)
106: 房产 (news_house)
107: 汽车 (news_car)
108: 教育 (news_edu)
109: 科技 (news_tech)
110: 军事 (news_military)
112: 旅游 (news_travel)
113: 国际 (news_world)
114: 证券 (stock)
115: 农业 (news_agriculture)
116: 电竞 (news_game)

数据规模

共382688条数据，分布于15个分类中。

采集时间

2018年05月

实验结果

测试准确率（Test Acc）为83.81%。
各分类的precision, recall, f1-score及support数目详细列出。
平均f1-score为0.84。

存在的问题

数据不均衡，部分类目数据太少。
部分分类之间本身模棱两可。

后续优化建议

增加数据量。
完善分类体系。
平衡分类数据。
引入新闻正文内容。

搜集汇总

数据集介绍

构建方式

该数据集构建于2018年5月，数据来源于今日头条客户端，涵盖了382,688条新闻文本，分布于15个不同的分类中。每条数据以`_!_`分隔，包含新闻ID、分类代码、分类名称、新闻标题及关键词。数据集的构建旨在提供一个多样化的中文文本分类基准，涵盖了从民生、文化到科技、军事等多个领域，反映了广泛的新闻主题。

特点

toutiao-text-classfication-dataset数据集的特点在于其广泛的分类覆盖和丰富的文本内容。数据集包含15个不同的新闻类别，每个类别下的新闻标题和关键词为文本分类任务提供了丰富的语义信息。然而，数据分布存在不均衡现象，部分类别的数据量较少，且某些分类之间存在语义重叠，这为分类任务带来了一定的挑战。此外，数据集的规模较大，适合用于训练和评估复杂的文本分类模型。

使用方法

使用该数据集时，建议首先对数据进行预处理，包括文本清洗、分词和向量化等步骤。数据集已按0.7:0.15:0.15的比例划分为训练集、验证集和测试集，用户可以直接使用这些划分进行模型训练和评估。在模型训练过程中，应注意处理数据不均衡问题，可以采用过采样、欠采样或加权损失函数等方法。此外，由于部分分类之间存在语义模糊性，建议在模型设计中引入更复杂的特征提取机制，如注意力机制或预训练语言模型，以提高分类性能。

背景与挑战

背景概述

toutiao-text-classfication-dataset是由今日头条客户端于2018年5月发布的中文文本分类数据集，旨在为自然语言处理领域的研究者提供一个大规模、多类别的文本分类基准。该数据集包含382,688条新闻标题，涵盖15个不同的类别，如娱乐、体育、财经等。数据集的创建背景源于中文文本分类任务的复杂性和多样性，尤其是在新闻领域，文本的语义和语境往往具有高度的动态性和多变性。该数据集的发布为中文文本分类算法的研究与优化提供了重要的实验平台，推动了相关领域的技术进步。

当前挑战

toutiao-text-classfication-dataset在应用过程中面临多重挑战。首先，数据分布不均衡问题显著，部分类别的样本数量较少，导致模型在这些类别上的表现较差。其次，某些类别之间的语义边界模糊，例如‘故事’与‘文化’、‘旅行’等类别，增加了分类的难度。此外，数据集的分类体系尚不完善，缺少如‘美食’等常见类别，限制了其在实际应用中的泛化能力。最后，数据集仅包含新闻标题，缺乏正文内容，可能影响模型对文本语义的全面理解。这些挑战为后续研究提供了优化方向，如引入更多数据、完善分类体系以及扩展文本内容等。

常用场景

经典使用场景

toutiao-text-classfication-dataset数据集广泛应用于中文文本分类领域，特别是在新闻分类任务中。该数据集通过提供大量标注好的新闻标题和关键词，为研究者提供了一个理想的实验平台，用于训练和测试各种文本分类模型。其多样化的分类标签涵盖了从娱乐到科技的多个领域，使得模型能够在多类别分类任务中得到充分验证。

衍生相关工作

基于toutiao-text-classfication-dataset数据集，许多经典的研究工作得以展开。例如，研究者提出了多种改进的文本分类算法，如基于深度学习的卷积神经网络（CNN）和循环神经网络（RNN）模型。这些工作不仅提升了分类准确率，还为中文文本分类领域提供了新的研究思路和方法。此外，该数据集还催生了一系列关于数据增强、类别不平衡处理和多标签分类的研究。

数据集最近研究