今日头条中文新闻（文本）分类数据集

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/skdjfla/toutiao-text-classfication-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自今日头条客户端的中文新闻文本，用于文本分类。数据集包含382688条数据，分布在15个不同的分类中，如娱乐、体育、财经等。数据格式为每行一条数据，包含新闻ID、分类code、分类名称、新闻标题和关键词。数据采集时间为2018年05月。

This dataset comprises Chinese news texts sourced from the Toutiao client, intended for text classification purposes. It encompasses a total of 382,688 entries, distributed across 15 distinct categories such as entertainment, sports, and finance. Each entry is formatted as a single line, containing the news ID, category code, category name, news headline, and keywords. The data was collected in May 2018.

创建时间：

2018-05-14

原始信息汇总

中文文本分类数据集概述

数据来源

今日头条客户端

数据格式

每条数据由以下字段组成，以_!_分割：
- 新闻ID
- 分类code
- 分类名称
- 新闻标题
- 新闻关键词

分类code与名称

100: 民生故事 (news_story)
101: 文化文化 (news_culture)
102: 娱乐娱乐 (news_entertainment)
103: 体育体育 (news_sports)
104: 财经财经 (news_finance)
106: 房产房产 (news_house)
107: 汽车汽车 (news_car)
108: 教育教育 (news_edu)
109: 科技科技 (news_tech)
110: 军事军事 (news_military)
112: 旅游旅游 (news_travel)
113: 国际国际 (news_world)
114: 证券股票 (stock)
115: 农业三农 (news_agriculture)
116: 电竞游戏 (news_game)

数据规模

共382688条数据，分布于15个分类中。

采集时间

2018年05月

实验结果

测试准确率（Test Acc）为83.81%。
各分类的precision, recall, f1-score及support数目如下：
- news_story: 0.66, 0.75, 0.70, 848
- news_culture: 0.57, 0.83, 0.68, 1531
- news_entertainment: 0.86, 0.86, 0.86, 8078
- news_sports: 0.94, 0.91, 0.92, 7338
- news_finance: 0.59, 0.67, 0.63, 1594
- news_house: 0.84, 0.89, 0.87, 1478
- news_car: 0.92, 0.90, 0.91, 6481
- news_edu: 0.71, 0.86, 0.77, 1425
- news_tech: 0.85, 0.84, 0.85, 6944
- news_military: 0.90, 0.78, 0.84, 6174
- news_travel: 0.58, 0.76, 0.66, 1287
- news_world: 0.72, 0.69, 0.70, 3823
- stock: 0.00, 0.00, 0.00, 53
- news_agriculture: 0.80, 0.88, 0.84, 1701
- news_game: 0.92, 0.87, 0.89, 6244
- avg / total: 0.85, 0.84, 0.84, 54999

存在的问题

数据不均衡，部分类目数据太少。
部分分类之间本身模棱两可。

后续优化建议

增加更多数据。
完善分类体系。
均衡分类数据。
引入新闻正文内容。

搜集汇总

数据集介绍

构建方式

今日头条中文新闻（文本）分类数据集的构建基于今日头条客户端的新闻内容，涵盖了2018年5月的数据。该数据集通过爬虫技术从客户端采集新闻信息，每条数据包含新闻ID、分类code、分类名称、新闻标题及关键词五个字段，各字段以`_!_`分隔。数据集共包含382688条新闻，分布于15个不同的新闻类别中，旨在为中文文本分类研究提供丰富的语料资源。

使用方法

使用今日头条中文新闻（文本）分类数据集时，研究者可以首先根据需求选择特定的新闻类别进行分析。数据集的每条记录均以`_!_`分隔，便于解析和处理。研究者可以利用新闻标题和关键词进行文本预处理，如分词、词频统计等，进而构建分类模型。数据集的实验结果表明，尽管存在类别不均衡的问题，但通过适当的模型优化和数据增强技术，仍可实现较高的分类准确率。建议研究者在实际应用中，结合正文内容进行更全面的分析，以提升模型的泛化能力。

背景与挑战

背景概述

今日头条中文新闻（文本）分类数据集是由今日头条客户端采集并整理的，旨在为中文文本分类研究提供丰富的数据资源。该数据集创建于2018年5月，涵盖了382,688条新闻数据，分布于15个不同的分类中，包括民生、文化、娱乐、体育、财经等。这一数据集的构建不仅为自然语言处理领域的研究者提供了宝贵的资源，还推动了中文文本分类技术的发展，特别是在新闻内容的自动分类和信息检索方面。

当前挑战

尽管今日头条中文新闻（文本）分类数据集在文本分类研究中具有重要价值，但其构建和应用过程中仍面临若干挑战。首先，数据集中的类别分布不均衡，部分类目数据量过少，如股票类别，这影响了模型的泛化能力。其次，部分分类之间存在模棱两可的情况，如故事、文化、旅行等，增加了分类的难度。此外，数据集的分类体系尚不完善，缺少如美食等常见类别，导致实际应用时分类不准确。未来，通过引入更多数据、完善分类体系以及实现更均衡的分类数据分布，可以进一步提升数据集的质量和应用效果。

常用场景

经典使用场景

今日头条中文新闻（文本）分类数据集在自然语言处理领域中，常被用于新闻文本的自动分类任务。通过该数据集，研究者可以训练和评估文本分类模型，以实现对新闻内容的自动化归类。这一经典场景不仅有助于提升新闻推荐系统的准确性，还能为信息检索和内容管理提供技术支持。

解决学术问题

该数据集解决了自然语言处理领域中新闻文本分类的常见学术问题，如文本特征提取、分类模型优化等。通过提供丰富的新闻文本数据，它为研究者提供了一个标准化的实验平台，促进了文本分类算法的发展和改进。此外，数据集的不均衡性和分类模糊性也为研究者提供了探索数据增强和多标签分类等前沿技术的契机。

实际应用

在实际应用中，今日头条中文新闻（文本）分类数据集被广泛应用于新闻推荐系统、舆情分析和内容过滤等领域。通过自动分类新闻文本，系统能够更精准地为用户推荐感兴趣的内容，提升用户体验。同时，该数据集也为企业和研究机构提供了分析市场趋势、监控舆情动态的重要工具。

数据集最近研究