toutiao-text-classfication-dataset

github2020-12-09 更新2024-05-31 收录

下载链接：

https://github.com/yufeiyi/toutiao-text-classfication-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

今日头条中文新闻文本分类数据集，包含382688条新闻数据，分布于15个分类中，数据格式为每行一条数据，包含新闻ID、分类code、分类名称、新闻标题和关键词。数据来源于今日头条客户端，采集时间为2018年05月。

The Toutiao Chinese News Text Classification Dataset comprises 382,688 news entries distributed across 15 categories. Each entry is formatted as a single line, containing the news ID, category code, category name, news title, and keywords. The data was sourced from the Toutiao client, with the collection period being May 2018.

创建时间：

2019-07-11

原始信息汇总

数据集概述

数据来源

今日头条客户端

数据格式

每条数据包含五个字段，以_!_分割：
- 新闻ID
- 分类code
- 分类名称
- 新闻标题
- 新闻关键词

分类code与名称

100: 民生故事 (news_story)
101: 文化 (news_culture)
102: 娱乐 (news_entertainment)
103: 体育 (news_sports)
104: 财经 (news_finance)
106: 房产 (news_house)
107: 汽车 (news_car)
108: 教育 (news_edu)
109: 科技 (news_tech)
110: 军事 (news_military)
112: 旅游 (news_travel)
113: 国际 (news_world)
114: 证券 (stock)
115: 农业 (news_agriculture)
116: 电竞 (news_game)

数据规模

共382688条数据，分布于15个分类中。

采集时间

2018年05月

实验结果

测试损失 (Test Loss): 0.57
测试准确率 (Test Acc): 83.81%
各类别的精确度 (precision), 召回率 (recall) 和 F1分数 (f1-score) 详细列出。

存在的问题与优化建议

问题：数据不均衡，部分类目数据太少；部分分类之间模棱两可。
优化建议：增加数据量，完善分类，平衡分类数据，引入正文内容。

搜集汇总

数据集介绍

构建方式

toutiao-text-classfication-dataset数据集源自今日头条客户端，通过系统化采集与整理，构建了一个包含382688条新闻文本的分类数据集。每条数据由新闻ID、分类code、分类名称、新闻标题及关键词五个字段组成，各字段以`_!_`分隔。数据集涵盖15个分类，包括民生、文化、娱乐、体育等，旨在为中文文本分类研究提供丰富的语料资源。

使用方法

使用toutiao-text-classfication-dataset数据集时，研究者可以将其用于中文文本分类模型的训练与评估。首先，需根据数据格式解析每条新闻记录，提取新闻标题和关键词作为特征输入。随后，利用分类code进行标签映射，构建训练与测试数据集。研究者可根据实验需求，调整数据分割比例，并参考已有实验结果进行模型优化，以提升分类准确率。

背景与挑战

背景概述

在自然语言处理领域，文本分类一直是核心研究课题之一。toutiao-text-classfication-dataset数据集由今日头条客户端于2018年5月采集，旨在为中文文本分类研究提供丰富的数据资源。该数据集包含了382688条新闻标题及其对应的分类信息，涵盖15个不同类别，如娱乐、体育、财经等。这一数据集的创建不仅为研究人员提供了一个标准化的测试平台，还推动了中文文本分类技术的发展，特别是在多类别分类和数据不均衡问题上的研究。

当前挑战

尽管toutiao-text-classfication-dataset数据集在文本分类研究中具有重要价值，但其构建过程中仍面临若干挑战。首先，数据集中的类别分布不均衡，部分类别如股票的数据量极少，这影响了模型的泛化能力。其次，部分分类之间存在模棱两可的情况，如故事、文化、旅行等，增加了分类的难度。此外，数据集仅包含新闻标题，未引入正文内容，限制了模型对文本深层次语义的理解。未来，通过增加数据量、完善分类体系以及引入更多文本信息，可以进一步提升数据集的质量和应用价值。

常用场景

经典使用场景

在自然语言处理领域，toutiao-text-classfication-dataset 数据集被广泛应用于中文文本分类任务。该数据集通过提供丰富的文本标题和关键词，使得研究者能够训练和评估各种文本分类模型。其经典使用场景包括但不限于：基于深度学习的文本分类模型训练、特征提取方法的比较研究、以及多标签分类技术的探索。

解决学术问题

toutiao-text-classfication-dataset 数据集解决了中文文本分类中的多个关键学术问题。首先，它为研究者提供了一个大规模、多类别的中文文本数据集，有助于推动中文自然语言处理技术的发展。其次，数据集中的不均衡类别分布和模棱两可的分类边界，为研究数据不均衡问题和分类边界模糊问题提供了宝贵的实验材料。此外，该数据集还促进了文本分类模型在实际应用中的性能提升。

实际应用

在实际应用中，toutiao-text-classfication-dataset 数据集被用于构建和优化新闻推荐系统、内容过滤系统以及舆情分析工具。通过准确分类新闻标题和关键词，这些系统能够更有效地为用户推荐相关内容，过滤不相关信息，并实时分析公众对特定话题的情感和态度。此外，该数据集还支持企业进行市场分析和品牌监测，帮助企业更好地理解市场动态和消费者行为。

数据集最近研究