toutiao-text-classfication-dataset

github2020-12-09 更新2024-05-31 收录

下载链接：

https://github.com/Wusiyi-mmbl/toutiao-text-classfication-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

今日头条中文新闻（文本）分类数据集，包含382688条新闻数据，分布于15个分类中，数据格式为每行一条数据，包含新闻ID、分类code、分类名称、新闻标题和关键词。数据采集于2018年05月。

The Toutiao Chinese News (Text) Classification Dataset comprises 382,688 news articles distributed across 15 categories. Each entry in the dataset is formatted as a single line, containing the news ID, category code, category name, news title, and keywords. The data was collected in May 2018.

创建时间：

2019-10-31

原始信息汇总

中文文本分类数据集概述

数据来源

今日头条客户端

数据格式

每条数据包含五个字段，以_!_分割，分别是：新闻ID、分类code、分类名称、新闻标题、新闻关键词。

分类code与名称

100: 民生故事 (news_story)
101: 文化 (news_culture)
102: 娱乐 (news_entertainment)
103: 体育 (news_sports)
104: 财经 (news_finance)
106: 房产 (news_house)
107: 汽车 (news_car)
108: 教育 (news_edu)
109: 科技 (news_tech)
110: 军事 (news_military)
112: 旅游 (news_travel)
113: 国际 (news_world)
114: 证券 (stock)
115: 农业 (news_agriculture)
116: 电竞 (news_game)

数据规模

共382688条数据，分布于15个分类中。

采集时间

2018年05月

实验结果

Test Loss: 0.57
Test Acc: 83.81%
分类性能指标（precision, recall, f1-score）详见数据集详情。

存在的问题与优化建议

问题：数据不均衡，部分类目数据太少；部分分类之间本身模棱两可。
优化建议：增加数据量；完善分类体系；均衡分类数据；引入新闻正文。

搜集汇总

数据集介绍

构建方式

该数据集构建于2018年5月，数据来源于今日头条客户端，涵盖了382,688条新闻数据，分布于15个不同的分类中。每条数据以`_!_`分隔，包含新闻ID、分类代码、分类名称、新闻标题及关键词。数据集的构建旨在通过多样化的新闻内容，为文本分类任务提供丰富的训练和测试材料。

使用方法

该数据集适用于训练和评估文本分类模型。用户可以通过解析每行数据，提取新闻标题和关键词作为输入特征，分类代码作为标签。数据集已按0.7:0.15:0.15的比例划分为训练集、验证集和测试集，便于直接用于模型训练和性能评估。此外，用户可以根据实验结果调整模型参数，或通过数据增强技术优化分类效果。

背景与挑战

背景概述

toutiao-text-classfication-dataset是由今日头条客户端于2018年5月发布的中文文本分类数据集，旨在为自然语言处理领域的研究者提供一个大规模、多类别的文本分类基准。该数据集涵盖了15个不同的新闻类别，包括娱乐、体育、财经、科技等，共计382,688条数据。每条数据包含新闻ID、分类代码、分类名称、新闻标题及关键词。该数据集的发布为中文文本分类任务提供了丰富的语料资源，推动了中文自然语言处理技术的发展，尤其在新闻分类、情感分析等领域具有重要的研究价值。

当前挑战

toutiao-text-classfication-dataset在应用过程中面临多重挑战。首先，数据分布不均衡问题显著，部分类别的样本数量较少，导致模型在这些类别上的表现较差。其次，某些分类之间存在语义重叠，例如故事、文化与旅行等类别，分类边界模糊，增加了分类难度。此外，数据集缺乏部分常见类别（如美食），限制了其在实际应用中的泛化能力。最后，数据集仅包含新闻标题，未引入正文内容，可能影响模型对文本语义的全面理解。未来优化方向包括扩充数据规模、完善分类体系、平衡数据分布以及引入正文信息，以进一步提升数据集的实用性和分类效果。

常用场景

经典使用场景

toutiao-text-classfication-dataset数据集广泛应用于中文文本分类任务中，特别是在新闻领域的自动分类和内容推荐系统中。该数据集通过提供大量标注好的新闻标题和关键词，为研究者提供了一个理想的实验平台，用于开发和测试各种文本分类算法。

解决学术问题

该数据集有效解决了中文文本分类中的多类别不平衡问题，通过提供15个不同类别的新闻数据，帮助研究者深入理解各类别之间的区分度和分类难度。此外，该数据集还支持研究者在处理高维稀疏数据、文本特征提取和模型优化等方面的探索，推动了自然语言处理技术的发展。

实际应用

在实际应用中，toutiao-text-classfication-dataset被广泛应用于新闻聚合平台和个性化推荐系统中。通过准确分类新闻内容，平台能够更有效地向用户推送相关新闻，提升用户体验。同时，该数据集也为广告投放和内容审核提供了技术支持，帮助平台实现更精准的内容管理和商业变现。

数据集最近研究