toutiao-text-classfication-dataset
收藏github2020-12-09 更新2024-05-31 收录
下载链接:
https://github.com/Wusiyi-mmbl/toutiao-text-classfication-dataset
下载链接
链接失效反馈官方服务:
资源简介:
今日头条中文新闻(文本)分类数据集,包含382688条新闻数据,分布于15个分类中,数据格式为每行一条数据,包含新闻ID、分类code、分类名称、新闻标题和关键词。数据采集于2018年05月。
The Toutiao Chinese News (Text) Classification Dataset comprises 382,688 news articles distributed across 15 categories. Each entry in the dataset is formatted as a single line, containing the news ID, category code, category name, news title, and keywords. The data was collected in May 2018.
创建时间:
2019-10-31
原始信息汇总
中文文本分类数据集概述
数据来源
- 今日头条客户端
数据格式
- 每条数据包含五个字段,以
_!_分割,分别是:新闻ID、分类code、分类名称、新闻标题、新闻关键词。
分类code与名称
- 100: 民生故事 (news_story)
- 101: 文化 (news_culture)
- 102: 娱乐 (news_entertainment)
- 103: 体育 (news_sports)
- 104: 财经 (news_finance)
- 106: 房产 (news_house)
- 107: 汽车 (news_car)
- 108: 教育 (news_edu)
- 109: 科技 (news_tech)
- 110: 军事 (news_military)
- 112: 旅游 (news_travel)
- 113: 国际 (news_world)
- 114: 证券 (stock)
- 115: 农业 (news_agriculture)
- 116: 电竞 (news_game)
数据规模
- 共382688条数据,分布于15个分类中。
采集时间
- 2018年05月
实验结果
- Test Loss: 0.57
- Test Acc: 83.81%
- 分类性能指标(precision, recall, f1-score)详见数据集详情。
存在的问题与优化建议
- 问题:数据不均衡,部分类目数据太少;部分分类之间本身模棱两可。
- 优化建议:增加数据量;完善分类体系;均衡分类数据;引入新闻正文。
搜集汇总
数据集介绍

构建方式
该数据集构建于2018年5月,数据来源于今日头条客户端,涵盖了382,688条新闻数据,分布于15个不同的分类中。每条数据以`_!_`分隔,包含新闻ID、分类代码、分类名称、新闻标题及关键词。数据集的构建旨在通过多样化的新闻内容,为文本分类任务提供丰富的训练和测试材料。
使用方法
该数据集适用于训练和评估文本分类模型。用户可以通过解析每行数据,提取新闻标题和关键词作为输入特征,分类代码作为标签。数据集已按0.7:0.15:0.15的比例划分为训练集、验证集和测试集,便于直接用于模型训练和性能评估。此外,用户可以根据实验结果调整模型参数,或通过数据增强技术优化分类效果。
背景与挑战
背景概述
toutiao-text-classfication-dataset是由今日头条客户端于2018年5月发布的中文文本分类数据集,旨在为自然语言处理领域的研究者提供一个大规模、多类别的文本分类基准。该数据集涵盖了15个不同的新闻类别,包括娱乐、体育、财经、科技等,共计382,688条数据。每条数据包含新闻ID、分类代码、分类名称、新闻标题及关键词。该数据集的发布为中文文本分类任务提供了丰富的语料资源,推动了中文自然语言处理技术的发展,尤其在新闻分类、情感分析等领域具有重要的研究价值。
当前挑战
toutiao-text-classfication-dataset在应用过程中面临多重挑战。首先,数据分布不均衡问题显著,部分类别的样本数量较少,导致模型在这些类别上的表现较差。其次,某些分类之间存在语义重叠,例如故事、文化与旅行等类别,分类边界模糊,增加了分类难度。此外,数据集缺乏部分常见类别(如美食),限制了其在实际应用中的泛化能力。最后,数据集仅包含新闻标题,未引入正文内容,可能影响模型对文本语义的全面理解。未来优化方向包括扩充数据规模、完善分类体系、平衡数据分布以及引入正文信息,以进一步提升数据集的实用性和分类效果。
常用场景
经典使用场景
toutiao-text-classfication-dataset数据集广泛应用于中文文本分类任务中,特别是在新闻领域的自动分类和内容推荐系统中。该数据集通过提供大量标注好的新闻标题和关键词,为研究者提供了一个理想的实验平台,用于开发和测试各种文本分类算法。
解决学术问题
该数据集有效解决了中文文本分类中的多类别不平衡问题,通过提供15个不同类别的新闻数据,帮助研究者深入理解各类别之间的区分度和分类难度。此外,该数据集还支持研究者在处理高维稀疏数据、文本特征提取和模型优化等方面的探索,推动了自然语言处理技术的发展。
实际应用
在实际应用中,toutiao-text-classfication-dataset被广泛应用于新闻聚合平台和个性化推荐系统中。通过准确分类新闻内容,平台能够更有效地向用户推送相关新闻,提升用户体验。同时,该数据集也为广告投放和内容审核提供了技术支持,帮助平台实现更精准的内容管理和商业变现。
数据集最近研究
最新研究方向
在自然语言处理领域,toutiao-text-classfication-dataset作为一个广泛使用的中文文本分类数据集,近年来在新闻分类、情感分析及主题模型构建等研究方向中发挥了重要作用。随着深度学习技术的进步,研究者们正致力于通过引入更复杂的神经网络架构,如Transformer和BERT,来提升分类的准确性和泛化能力。此外,针对数据集中存在的数据不均衡和分类模糊问题,当前的研究热点包括数据增强技术、跨领域迁移学习以及多任务学习策略的应用,以期在保持模型性能的同时,提高对少数类别的识别能力。这些研究不仅推动了文本分类技术的发展,也为相关应用如新闻推荐系统和舆情监控提供了强有力的技术支持。
以上内容由遇见数据集搜集并总结生成



