toutiao-text-classfication-dataset|文本分类数据集|新闻数据数据集
收藏github2020-12-09 更新2024-05-31 收录
下载链接:
https://github.com/yangxx17/toutiao-text-classfication-dataset
下载链接
链接失效反馈资源简介:
今日头条中文新闻(文本)分类数据集,包含382688条新闻数据,分布于15个分类中,数据格式为每行一条数据,包含新闻ID、分类code、分类名称、新闻标题和关键词。
The Toutiao Chinese News (Text) Classification Dataset comprises 382,688 news entries distributed across 15 categories. Each entry is formatted as a single line, containing the news ID, category code, category name, news title, and keywords.
创建时间:
2019-11-28
原始信息汇总
中文文本分类数据集概述
数据来源
- 今日头条客户端
数据格式
- 每条数据包含五个字段,以
_!_分割,分别为:新闻ID、分类code、分类名称、新闻标题、新闻关键词。
分类信息
- 共有15个分类,每个分类对应一个code和名称,例如:
- 100: 民生故事 (news_story)
- 101: 文化文化 (news_culture)
- 102: 娱乐娱乐 (news_entertainment)
- 103: 体育体育 (news_sports)
- 104: 财经财经 (news_finance)
- 106: 房产房产 (news_house)
- 107: 汽车汽车 (news_car)
- 108: 教育教育 (news_edu)
- 109: 科技科技 (news_tech)
- 110: 军事军事 (news_military)
- 112: 旅游旅游 (news_travel)
- 113: 国际国际 (news_world)
- 114: 证券股票 (stock)
- 115: 农业三农 (news_agriculture)
- 116: 电竞游戏 (news_game)
数据规模
- 总计382688条数据,分布于上述15个分类中。
采集时间
- 2018年05月
实验结果
- 分类实验结果如下:
- 平均准确率(precision)、召回率(recall)和F1分数(f1-score)为84%。
- 部分分类的性能较低,主要原因是数据不均衡和分类之间的模糊性。
后续优化建议
- 增加数据量
- 完善分类体系
- 平衡各类别数据量
- 引入新闻正文内容
AI搜集汇总
数据集介绍

构建方式
toutiao-text-classfication-dataset数据集构建于2018年5月,数据来源于今日头条客户端。每条数据以`_!_`分割,包含新闻ID、分类code、分类名称、新闻标题及关键词。数据集共包含382,688条数据,分布于15个不同的新闻分类中,涵盖了从民生、文化到科技、军事等多个领域。
特点
该数据集的特点在于其广泛覆盖的新闻类别和丰富的文本内容。每个类别下的数据量分布不均,部分类别如娱乐和体育的数据量较大,而股票类别的数据量较少。此外,数据集中每条记录都包含了新闻标题和关键词,这为文本分类任务提供了丰富的特征信息。
使用方法
使用toutiao-text-classfication-dataset时,首先需要将数据按0.7:0.15:0.15的比例分割为训练集、验证集和测试集。可以利用新闻标题和关键词作为输入特征,通过机器学习或深度学习模型进行文本分类。实验结果表明,该数据集在多个分类任务上表现良好,尤其是在娱乐和体育类别上。然而,由于数据不均衡和部分类别之间的模糊性,模型在某些类别上的表现仍有提升空间。
背景与挑战
背景概述
toutiao-text-classfication-dataset是由今日头条客户端于2018年5月发布的中文文本分类数据集,旨在为自然语言处理领域的研究者提供一个大规模、多类别的文本分类基准。该数据集包含382,688条新闻标题,涵盖15个不同的类别,如娱乐、体育、财经等。数据集的创建者通过今日头条客户端采集了大量真实新闻数据,为文本分类算法的研究提供了丰富的实验材料。该数据集在中文文本分类领域具有重要的影响力,推动了相关算法的优化与创新。
当前挑战
toutiao-text-classfication-dataset在构建和应用过程中面临多重挑战。首先,数据类别分布不均衡,部分类别(如股票)样本数量极少,导致模型在这些类别上的表现较差。其次,某些类别之间的界限模糊(如故事、文化与旅行),增加了分类难度。此外,数据集中仅包含新闻标题,缺乏正文内容,限制了模型对上下文信息的利用。未来优化方向包括扩充数据规模、增加更多类别、平衡类别分布以及引入新闻正文,以进一步提升模型的分类性能。
常用场景
经典使用场景
toutiao-text-classfication-dataset数据集广泛应用于中文文本分类任务中,特别是在新闻领域。研究者利用该数据集训练和测试机器学习模型,以自动识别和分类新闻文章到预定义的类别中。这种分类能力对于新闻聚合、个性化推荐系统以及内容管理系统的开发至关重要。
实际应用
在实际应用中,toutiao-text-classfication-dataset被用于构建和优化新闻推荐系统,帮助用户根据个人兴趣快速找到相关新闻。此外,该数据集还支持媒体机构自动化内容分类,提高内容分发的效率和准确性,从而增强用户体验和内容管理的自动化水平。
衍生相关工作
基于toutiao-text-classfication-dataset,许多研究工作得以展开,包括深度学习模型在文本分类中的应用、跨语言文本分类技术的研究以及文本分类模型的鲁棒性改进。这些研究不仅提升了中文文本分类的技术水平,也为其他语言的文本处理提供了参考和借鉴。
以上内容由AI搜集并总结生成



