five

toutiao-text-classfication-dataset|文本分类数据集|新闻分析数据集

收藏
github2024-05-22 更新2024-05-31 收录
文本分类
新闻分析
下载链接:
https://github.com/fateleak/toutiao-text-classfication-dataset
下载链接
链接失效反馈
资源简介:
今日头条中文新闻(文本)分类数据集,包含382688条新闻数据,分布于15个分类中,数据格式为每行一条数据,包含新闻ID、分类code、分类名称、新闻标题和关键词。数据采集时间为2018年05月。

The Toutiao Chinese News (Text) Classification Dataset comprises 382,688 news entries distributed across 15 categories. Each entry is formatted as a single line, containing the news ID, category code, category name, news title, and keywords. The data was collected in May 2018.
创建时间:
2018-05-14
原始信息汇总

中文文本分类数据集概述

数据来源

  • 今日头条客户端

数据格式

  • 每条数据包含五个字段,以_!_分隔,分别是:新闻ID、分类code、分类名称、新闻标题、新闻关键词。

分类code与名称

  • 100: 民生 故事 (news_story)
  • 101: 文化 文化 (news_culture)
  • 102: 娱乐 娱乐 (news_entertainment)
  • 103: 体育 体育 (news_sports)
  • 104: 财经 财经 (news_finance)
  • 106: 房产 房产 (news_house)
  • 107: 汽车 汽车 (news_car)
  • 108: 教育 教育 (news_edu)
  • 109: 科技 科技 (news_tech)
  • 110: 军事 军事 (news_military)
  • 112: 旅游 旅游 (news_travel)
  • 113: 国际 国际 (news_world)
  • 114: 证券 股票 (stock)
  • 115: 农业 三农 (news_agriculture)
  • 116: 电竞 游戏 (news_game)

数据规模

  • 共382688条数据,分布于15个分类中。

采集时间

  • 2018年05月

实验结果

  • 测试准确率(Test Acc)为83.81%。
  • 各分类的precision, recall, f1-score和support数详见README文件。

存在的问题与优化建议

  • 问题:数据不均衡,部分类目数据太少;部分分类之间模棱两可。
  • 优化建议:增加数据量,完善分类,均衡分类数据,引入新闻正文。
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集源自今日头条客户端,通过系统化采集与整理,构建了一个包含382,688条新闻记录的中文文本分类数据集。每条记录由新闻ID、分类代码、分类名称、新闻标题及关键词五个字段组成,各字段之间以`_!_`分隔。数据集涵盖15个分类,包括民生、文化、娱乐、体育等,旨在为中文文本分类研究提供丰富的语料资源。
特点
此数据集的显著特点在于其广泛的应用领域和多样化的分类标签。数据集不仅包含了新闻标题和关键词,还提供了详细的分类代码和名称,便于研究者进行多维度的分析。然而,数据集也存在一些局限性,如部分类目数据量不均衡,某些分类之间存在模糊边界,以及分类不全等问题,这些都为后续研究提供了优化空间。
使用方法
使用该数据集时,研究者可以根据需求选择不同的字段进行分析,如新闻标题用于文本分类任务,关键词用于语义分析等。数据集的分类代码和名称提供了明确的标签体系,便于模型训练和评估。建议在使用前对数据进行预处理,如去除噪声、平衡数据分布等,以提升模型的性能。此外,研究者可参考实验结果,针对数据集的不足之处进行改进,以获得更优的分类效果。
背景与挑战
背景概述
toutiao-text-classification-dataset是由今日头条客户端采集并整理的中文文本分类数据集,主要用于新闻文本的分类研究。该数据集创建于2018年5月,包含了382,688条新闻数据,涵盖15个不同的分类,如娱乐、体育、财经等。数据集的构建旨在为自然语言处理领域的研究者提供一个标准化的数据资源,以推动中文文本分类技术的发展。通过该数据集,研究人员可以探索不同分类算法在新闻文本分类中的表现,从而为实际应用提供技术支持。
当前挑战
尽管toutiao-text-classification-dataset为中文文本分类研究提供了丰富的数据资源,但其构建过程中仍面临若干挑战。首先,数据集中的分类分布不均衡,部分类目数据量过少,如股票分类,这可能导致模型训练时的偏差。其次,部分分类之间存在模棱两可的情况,如故事与文化、旅行等,增加了分类的复杂性。此外,数据集的分类体系尚不全面,缺少如美食等常见分类,影响了实际应用中的准确性。未来,通过引入更多数据、完善分类体系以及实现分类数据的均衡分布,可以进一步优化该数据集的质量和应用效果。
常用场景
经典使用场景
在自然语言处理领域,toutiao-text-classfication-dataset 数据集被广泛应用于中文文本分类任务。该数据集包含了来自今日头条客户端的新闻标题及其对应的分类标签,涵盖了民生、文化、娱乐、体育等多个领域。通过使用该数据集,研究者和开发者可以训练和评估文本分类模型,以实现对新闻标题的自动分类。
解决学术问题
toutiao-text-classfication-dataset 数据集解决了中文文本分类中的关键问题,如数据不均衡和分类模糊性。通过提供多样化的分类标签和丰富的文本数据,该数据集有助于研究者探索和优化文本分类算法,提升模型在实际应用中的准确性和鲁棒性。此外,该数据集还为研究中文语言特征和文本分类技术提供了宝贵的资源。
衍生相关工作
基于 toutiao-text-classfication-dataset 数据集,研究者们开展了一系列相关工作,包括改进文本分类算法、探索多标签分类技术以及研究中文文本的语义表示。这些工作不仅提升了文本分类的准确性,还推动了自然语言处理技术在中文领域的应用和发展。此外,该数据集还激发了更多关于数据增强和模型优化的研究,为中文文本处理领域带来了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Asteroids by the Minor Planet Center

包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。

github 收录

中山市五桂山常住人口基本信息

中山市五桂山常住人口基本信息。

开放广东 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。

github 收录

CAMUS_public-ImageMask-Dataset

这是一个用于图像分割的CAMUS_public(心脏多结构超声分割采集)数据集。该数据集包含来自500名患者的临床检查,这些检查在法国圣艾蒂安大学医院进行,并根据当地伦理委员会的规定进行了完全匿名化处理。数据集旨在执行左心室射血分数测量,并反映了临床实践中的数据多样性,包括图像质量和病理情况的广泛变异。数据集分为训练集(450名患者)和测试集(50名新患者),原始输入图像以raw/mhd文件格式提供。

github 收录

NAEP Data Explorer

NAEP Data Explorer是一个用于访问美国国家教育进展评估(NAEP)数据的平台。该数据集包含了美国各州和地区的教育评估数据,涵盖了从四年级到十二年级的学生成绩、教育资源分配、学生背景信息等多个方面。数据集提供了详细的统计分析和可视化工具,帮助教育研究人员、政策制定者和公众了解美国教育的现状和趋势。

www.nationsreportcard.gov 收录