toutiao-text-classfication-dataset

github2023-03-28 更新2024-05-31 收录

下载链接：

https://github.com/10183308/toutiao-text-classfication-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

今日头条中文新闻文本分类数据集，包含382688条新闻数据，分布于15个分类中，数据采集于2018年05月。数据格式为每行一条数据，包含新闻ID、分类code、分类名称、新闻标题和关键词。

The Toutiao Chinese News Text Classification Dataset comprises 382,688 news articles distributed across 15 categories, collected in May 2018. Each entry in the dataset is formatted as a single line, containing the news ID, category code, category name, news title, and keywords.

创建时间：

2018-05-31

原始信息汇总

中文文本分类数据集概述

数据来源

今日头条客户端

数据格式

每条数据由五个字段组成，以_!_分割，包括新闻ID、分类code、分类名称、新闻标题、新闻关键词。

分类信息

共有15个分类，每个分类对应一个code和一个名称。例如：
- code: 102, 名称: 娱乐, 分类名称: news_entertainment

数据规模

总计382688条数据，分布于15个分类中。

采集时间

2018年05月

实验结果

测试准确率（Test Acc）为83.81%。
各分类的precision、recall和f1-score详细如下：
- news_entertainment: precision 0.86, recall 0.86, f1-score 0.86
- news_sports: precision 0.94, recall 0.91, f1-score 0.92
- 平均/总计: precision 0.85, recall 0.84, f1-score 0.84

存在的问题

数据不均衡，部分类目数据太少。
部分分类之间本身模棱两可，如故事、文化、旅行。

后续优化建议

增加数据量。
完善分类，如增加美食等分类。
平衡各分类的数据量。
引入新闻正文内容。

搜集汇总

数据集介绍

构建方式

toutiao-text-classfication-dataset数据集构建于2018年5月，数据来源于今日头条客户端。每条数据以`_!_`分隔，包含新闻ID、分类code、分类名称、新闻标题及关键词五个字段。数据集共包含382,688条新闻，涵盖15个分类，如娱乐、体育、财经等，每个分类均有相应的code和名称对应。数据集的构建旨在为中文文本分类任务提供丰富的训练和测试样本。

特点

该数据集的特点在于其广泛覆盖了多个新闻类别，且每个类别下的数据量较为丰富，尤其是娱乐、体育和科技等类别。然而，数据分布存在不均衡现象，部分类别如股票的数据量较少，可能影响分类模型的训练效果。此外，数据仅包含新闻标题和关键词，缺乏正文内容，这在一定程度上限制了数据集的深度应用。

使用方法

使用toutiao-text-classfication-dataset时，建议将数据集按0.7:0.15:0.15的比例划分为训练集、验证集和测试集。由于数据分布不均衡，可采用过采样或欠采样技术优化模型训练。此外，针对部分类别模棱两可的问题，可通过引入外部知识或结合上下文信息提升分类效果。实验结果中，模型在娱乐、体育等类别表现较好，但在股票等数据量较少的类别上表现欠佳，需进一步优化。

背景与挑战

背景概述

toutiao-text-classfication-dataset数据集由今日头条客户端于2018年5月发布，旨在为中文文本分类任务提供高质量的数据支持。该数据集包含382,688条新闻标题，涵盖15个不同的分类，如娱乐、体育、财经等。该数据集的创建为自然语言处理领域的研究者提供了一个重要的资源，尤其是在中文文本分类任务中，推动了相关算法的优化与创新。通过该数据集，研究者能够更好地理解和解决中文文本分类中的复杂问题，如多类别分类、文本特征提取等。

当前挑战

toutiao-text-classfication-dataset面临的主要挑战包括数据不均衡和分类模糊性。首先，部分类别的数据量较少，导致模型在这些类别上的表现较差。其次，某些分类之间存在较高的语义重叠，例如故事、文化和旅行类别的界限较为模糊，增加了分类的难度。此外，数据集中缺少一些常见的分类，如美食类，限制了其在实际应用中的广泛性。未来的优化方向包括增加数据量、扩展分类体系、平衡各类数据分布，并考虑引入新闻正文以提升分类的准确性。

常用场景

经典使用场景

toutiao-text-classfication-dataset数据集广泛应用于中文文本分类领域，特别是在新闻内容的自动分类任务中。研究者利用该数据集训练和测试机器学习模型，以识别和分类新闻标题及关键词，进而实现新闻内容的自动化管理。这一数据集因其丰富的类别和大量的样本，成为评估文本分类算法性能的重要基准。

衍生相关工作

基于toutiao-text-classfication-dataset，许多研究团队开发了新的文本分类算法和模型，如深度神经网络和集成学习方法。这些工作不仅提升了分类的准确率，还增强了模型对不平衡数据的处理能力。此外，该数据集也激发了关于文本预处理和特征提取技术的研究，进一步丰富了中文文本分类的研究领域。

数据集最近研究