toutiao-text-classfication-dataset

github2020-12-09 更新2024-05-31 收录

下载链接：

https://github.com/yangxx17/toutiao-text-classfication-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

今日头条中文新闻（文本）分类数据集，包含382688条新闻数据，分布于15个分类中，数据格式为每行一条数据，包含新闻ID、分类code、分类名称、新闻标题和关键词。

The Toutiao Chinese News (Text) Classification Dataset comprises 382,688 news entries distributed across 15 categories. Each entry is formatted as a single line, containing the news ID, category code, category name, news title, and keywords.

创建时间：

2019-11-28

原始信息汇总

中文文本分类数据集概述

数据来源

今日头条客户端

数据格式

每条数据包含五个字段，以_!_分割，分别为：新闻ID、分类code、分类名称、新闻标题、新闻关键词。

分类信息

共有15个分类，每个分类对应一个code和名称，例如：
- 100: 民生故事 (news_story)
- 101: 文化文化 (news_culture)
- 102: 娱乐娱乐 (news_entertainment)
- 103: 体育体育 (news_sports)
- 104: 财经财经 (news_finance)
- 106: 房产房产 (news_house)
- 107: 汽车汽车 (news_car)
- 108: 教育教育 (news_edu)
- 109: 科技科技 (news_tech)
- 110: 军事军事 (news_military)
- 112: 旅游旅游 (news_travel)
- 113: 国际国际 (news_world)
- 114: 证券股票 (stock)
- 115: 农业三农 (news_agriculture)
- 116: 电竞游戏 (news_game)

数据规模

总计382688条数据，分布于上述15个分类中。

采集时间

2018年05月

实验结果

分类实验结果如下：
- 平均准确率（precision）、召回率（recall）和F1分数（f1-score）为84%。
- 部分分类的性能较低，主要原因是数据不均衡和分类之间的模糊性。

后续优化建议

增加数据量
完善分类体系
平衡各类别数据量
引入新闻正文内容

搜集汇总

数据集介绍

构建方式

toutiao-text-classfication-dataset数据集构建于2018年5月，数据来源于今日头条客户端。每条数据以`_!_`分割，包含新闻ID、分类code、分类名称、新闻标题及关键词。数据集共包含382,688条数据，分布于15个不同的新闻分类中，涵盖了从民生、文化到科技、军事等多个领域。

特点

该数据集的特点在于其广泛覆盖的新闻类别和丰富的文本内容。每个类别下的数据量分布不均，部分类别如娱乐和体育的数据量较大，而股票类别的数据量较少。此外，数据集中每条记录都包含了新闻标题和关键词，这为文本分类任务提供了丰富的特征信息。

使用方法

使用toutiao-text-classfication-dataset时，首先需要将数据按0.7:0.15:0.15的比例分割为训练集、验证集和测试集。可以利用新闻标题和关键词作为输入特征，通过机器学习或深度学习模型进行文本分类。实验结果表明，该数据集在多个分类任务上表现良好，尤其是在娱乐和体育类别上。然而，由于数据不均衡和部分类别之间的模糊性，模型在某些类别上的表现仍有提升空间。

背景与挑战

背景概述

toutiao-text-classfication-dataset是由今日头条客户端于2018年5月发布的中文文本分类数据集，旨在为自然语言处理领域的研究者提供一个大规模、多类别的文本分类基准。该数据集包含382,688条新闻标题，涵盖15个不同的类别，如娱乐、体育、财经等。数据集的创建者通过今日头条客户端采集了大量真实新闻数据，为文本分类算法的研究提供了丰富的实验材料。该数据集在中文文本分类领域具有重要的影响力，推动了相关算法的优化与创新。

当前挑战

toutiao-text-classfication-dataset在构建和应用过程中面临多重挑战。首先，数据类别分布不均衡，部分类别（如股票）样本数量极少，导致模型在这些类别上的表现较差。其次，某些类别之间的界限模糊（如故事、文化与旅行），增加了分类难度。此外，数据集中仅包含新闻标题，缺乏正文内容，限制了模型对上下文信息的利用。未来优化方向包括扩充数据规模、增加更多类别、平衡类别分布以及引入新闻正文，以进一步提升模型的分类性能。

常用场景

经典使用场景

toutiao-text-classfication-dataset数据集广泛应用于中文文本分类任务中，特别是在新闻领域。研究者利用该数据集训练和测试机器学习模型，以自动识别和分类新闻文章到预定义的类别中。这种分类能力对于新闻聚合、个性化推荐系统以及内容管理系统的开发至关重要。

实际应用

在实际应用中，toutiao-text-classfication-dataset被用于构建和优化新闻推荐系统，帮助用户根据个人兴趣快速找到相关新闻。此外，该数据集还支持媒体机构自动化内容分类，提高内容分发的效率和准确性，从而增强用户体验和内容管理的自动化水平。

衍生相关工作

基于toutiao-text-classfication-dataset，许多研究工作得以展开，包括深度学习模型在文本分类中的应用、跨语言文本分类技术的研究以及文本分类模型的鲁棒性改进。这些研究不仅提升了中文文本分类的技术水平，也为其他语言的文本处理提供了参考和借鉴。

以上内容由遇见数据集搜集并总结生成