toutiao-text-classfication-dataset

github2020-12-09 更新2024-05-31 收录

下载链接：

https://github.com/GardenDream/toutiao-text-classfication-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

今日头条中文新闻（文本）分类数据集，包含382688条数据，分布于15个分类中，数据来源于今日头条客户端，采集时间为2018年05月。数据格式为每行一条数据，包含新闻ID、分类code、分类名称、新闻标题和关键词。

The Toutiao Chinese News (Text) Classification Dataset comprises 382,688 entries distributed across 15 categories. The data was sourced from the Toutiao client, with the collection period being May 2018. Each entry is formatted as a single line, containing the news ID, category code, category name, news headline, and keywords.

创建时间：

2019-11-18

原始信息汇总

中文文本分类数据集概述

数据来源

今日头条客户端

数据格式

每条数据包含五个字段，以 _!_ 分割，分别是：
- 新闻ID
- 分类code
- 分类名称
- 新闻标题
- 新闻关键词

分类code与名称

100: 民生故事 (news_story)
101: 文化文化 (news_culture)
102: 娱乐娱乐 (news_entertainment)
103: 体育体育 (news_sports)
104: 财经财经 (news_finance)
106: 房产房产 (news_house)
107: 汽车汽车 (news_car)
108: 教育教育 (news_edu)
109: 科技科技 (news_tech)
110: 军事军事 (news_military)
112: 旅游旅游 (news_travel)
113: 国际国际 (news_world)
114: 证券股票 (stock)
115: 农业三农 (news_agriculture)
116: 电竞游戏 (news_game)

数据规模

共382688条数据，分布于15个分类中。

采集时间

2018年05月

实验结果

测试结果显示，总体准确率为83.81%，具体分类的精确度、召回率和F1分数如下：
- news_story: 精确度0.66，召回率0.75，F1分数0.70
- news_culture: 精确度0.57，召回率0.83，F1分数0.68
- news_entertainment: 精确度0.86，召回率0.86，F1分数0.86
- news_sports: 精确度0.94，召回率0.91，F1分数0.92
- news_finance: 精确度0.59，召回率0.67，F1分数0.63
- news_house: 精确度0.84，召回率0.89，F1分数0.87
- news_car: 精确度0.92，召回率0.90，F1分数0.91
- news_edu: 精确度0.71，召回率0.86，F1分数0.77
- news_tech: 精确度0.85，召回率0.84，F1分数0.85
- news_military: 精确度0.90，召回率0.78，F1分数0.84
- news_travel: 精确度0.58，召回率0.76，F1分数0.66
- news_world: 精确度0.72，召回率0.69，F1分数0.70
- stock: 精确度0.00，召回率0.00，F1分数0.00
- news_agriculture: 精确度0.80，召回率0.88，F1分数0.84
- news_game: 精确度0.92，召回率0.87，F1分数0.89

存在的问题与优化建议

问题：
- 数据不均衡，部分类目数据太少
- 部分分类之间本身模棱两可
优化建议：
- 增加数据量
- 扩展分类范围
- 平衡分类数据
- 引入新闻正文内容

搜集汇总

数据集介绍

构建方式

该数据集构建于2018年5月，数据来源于今日头条客户端，涵盖了15个不同类别的新闻文本。每条数据以`_!_`分隔，包含新闻ID、分类code、分类名称、新闻标题及关键词。数据规模达到382,688条，确保了数据集的广泛性和多样性。

特点

toutiao-text-classfication-dataset数据集的特点在于其丰富的类别覆盖和实际应用场景的高度契合。数据集不仅包含了娱乐、体育、财经等主流新闻类别，还涵盖了农业、电竞等特定领域，为文本分类研究提供了多角度的数据支持。此外，数据集中每条记录均附有关键词，有助于深入分析文本特征和提升分类模型的准确性。

使用方法

使用该数据集时，研究人员可以按照0.7:0.15:0.15的比例将数据分割为训练集、验证集和测试集，以进行模型的训练和评估。数据集的结构清晰，便于直接应用于文本分类算法的开发与测试。此外，数据集提供了详细的分类code和名称，方便用户根据研究需求选择特定的类别进行深入分析。

背景与挑战

背景概述

toutiao-text-classfication-dataset是由今日头条客户端于2018年5月发布的中文文本分类数据集，旨在为自然语言处理领域的研究者提供一个大规模的、多类别的文本分类基准。该数据集涵盖了15个不同的新闻类别，包括民生、文化、娱乐、体育、财经等，共计382,688条数据。每条数据包含新闻ID、分类代码、分类名称、新闻标题及关键词。该数据集的发布为中文文本分类任务提供了丰富的语料资源，推动了相关领域的研究进展，尤其是在新闻分类、情感分析等应用场景中具有重要的参考价值。

当前挑战

toutiao-text-classfication-dataset在实际应用中面临多重挑战。首先，数据分布不均衡问题显著，部分类别的样本数量较少，导致模型在这些类别上的表现较差。其次，某些分类之间存在语义模糊性，例如故事、文化与旅行类别的界限不够清晰，增加了分类难度。此外，数据集的分类体系尚不完善，缺少如美食等常见类别，限制了其在实际场景中的应用范围。最后，数据集仅包含新闻标题和关键词，缺乏正文内容，可能影响模型对文本语义的全面理解。未来优化方向包括扩充数据规模、完善分类体系、平衡数据分布以及引入正文信息。

常用场景

经典使用场景

toutiao-text-classfication-dataset数据集在自然语言处理领域中被广泛应用于文本分类任务。其丰富的新闻标题和关键词数据为研究者提供了一个理想的实验平台，用于训练和评估各种文本分类模型。特别是在多类别分类任务中，该数据集能够有效帮助研究者探索不同算法在处理大规模、多类别文本数据时的性能表现。

衍生相关工作

基于toutiao-text-classfication-dataset，许多经典的研究工作得以展开。例如，研究者利用该数据集提出了多种改进的文本分类算法，如基于深度学习的多标签分类模型和基于注意力机制的文本分类方法。这些工作不仅推动了文本分类技术的发展，也为其他相关领域的研究提供了宝贵的参考。

数据集最近研究