five

toutiao-text-classfication-dataset|文本分类数据集|新闻数据数据集

收藏
github2020-12-09 更新2024-05-31 收录
文本分类
新闻数据
下载链接:
https://github.com/yangxx17/toutiao-text-classfication-dataset
下载链接
链接失效反馈
资源简介:
今日头条中文新闻(文本)分类数据集,包含382688条新闻数据,分布于15个分类中,数据格式为每行一条数据,包含新闻ID、分类code、分类名称、新闻标题和关键词。

The Toutiao Chinese News (Text) Classification Dataset comprises 382,688 news entries distributed across 15 categories. Each entry is formatted as a single line, containing the news ID, category code, category name, news title, and keywords.
创建时间:
2019-11-28
原始信息汇总

中文文本分类数据集概述

数据来源

  • 今日头条客户端

数据格式

  • 每条数据包含五个字段,以_!_分割,分别为:新闻ID、分类code、分类名称、新闻标题、新闻关键词。

分类信息

  • 共有15个分类,每个分类对应一个code和名称,例如:
    • 100: 民生故事 (news_story)
    • 101: 文化文化 (news_culture)
    • 102: 娱乐娱乐 (news_entertainment)
    • 103: 体育体育 (news_sports)
    • 104: 财经财经 (news_finance)
    • 106: 房产房产 (news_house)
    • 107: 汽车汽车 (news_car)
    • 108: 教育教育 (news_edu)
    • 109: 科技科技 (news_tech)
    • 110: 军事军事 (news_military)
    • 112: 旅游旅游 (news_travel)
    • 113: 国际国际 (news_world)
    • 114: 证券股票 (stock)
    • 115: 农业三农 (news_agriculture)
    • 116: 电竞游戏 (news_game)

数据规模

  • 总计382688条数据,分布于上述15个分类中。

采集时间

  • 2018年05月

实验结果

  • 分类实验结果如下:
    • 平均准确率(precision)、召回率(recall)和F1分数(f1-score)为84%。
    • 部分分类的性能较低,主要原因是数据不均衡和分类之间的模糊性。

后续优化建议

  • 增加数据量
  • 完善分类体系
  • 平衡各类别数据量
  • 引入新闻正文内容
AI搜集汇总
数据集介绍
main_image_url
构建方式
toutiao-text-classfication-dataset数据集构建于2018年5月,数据来源于今日头条客户端。每条数据以`_!_`分割,包含新闻ID、分类code、分类名称、新闻标题及关键词。数据集共包含382,688条数据,分布于15个不同的新闻分类中,涵盖了从民生、文化到科技、军事等多个领域。
特点
该数据集的特点在于其广泛覆盖的新闻类别和丰富的文本内容。每个类别下的数据量分布不均,部分类别如娱乐和体育的数据量较大,而股票类别的数据量较少。此外,数据集中每条记录都包含了新闻标题和关键词,这为文本分类任务提供了丰富的特征信息。
使用方法
使用toutiao-text-classfication-dataset时,首先需要将数据按0.7:0.15:0.15的比例分割为训练集、验证集和测试集。可以利用新闻标题和关键词作为输入特征,通过机器学习或深度学习模型进行文本分类。实验结果表明,该数据集在多个分类任务上表现良好,尤其是在娱乐和体育类别上。然而,由于数据不均衡和部分类别之间的模糊性,模型在某些类别上的表现仍有提升空间。
背景与挑战
背景概述
toutiao-text-classfication-dataset是由今日头条客户端于2018年5月发布的中文文本分类数据集,旨在为自然语言处理领域的研究者提供一个大规模、多类别的文本分类基准。该数据集包含382,688条新闻标题,涵盖15个不同的类别,如娱乐、体育、财经等。数据集的创建者通过今日头条客户端采集了大量真实新闻数据,为文本分类算法的研究提供了丰富的实验材料。该数据集在中文文本分类领域具有重要的影响力,推动了相关算法的优化与创新。
当前挑战
toutiao-text-classfication-dataset在构建和应用过程中面临多重挑战。首先,数据类别分布不均衡,部分类别(如股票)样本数量极少,导致模型在这些类别上的表现较差。其次,某些类别之间的界限模糊(如故事、文化与旅行),增加了分类难度。此外,数据集中仅包含新闻标题,缺乏正文内容,限制了模型对上下文信息的利用。未来优化方向包括扩充数据规模、增加更多类别、平衡类别分布以及引入新闻正文,以进一步提升模型的分类性能。
常用场景
经典使用场景
toutiao-text-classfication-dataset数据集广泛应用于中文文本分类任务中,特别是在新闻领域。研究者利用该数据集训练和测试机器学习模型,以自动识别和分类新闻文章到预定义的类别中。这种分类能力对于新闻聚合、个性化推荐系统以及内容管理系统的开发至关重要。
实际应用
在实际应用中,toutiao-text-classfication-dataset被用于构建和优化新闻推荐系统,帮助用户根据个人兴趣快速找到相关新闻。此外,该数据集还支持媒体机构自动化内容分类,提高内容分发的效率和准确性,从而增强用户体验和内容管理的自动化水平。
衍生相关工作
基于toutiao-text-classfication-dataset,许多研究工作得以展开,包括深度学习模型在文本分类中的应用、跨语言文本分类技术的研究以及文本分类模型的鲁棒性改进。这些研究不仅提升了中文文本分类的技术水平,也为其他语言的文本处理提供了参考和借鉴。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

安徽新能源汽车产业链图谱企业名单数据

根据安徽新能源产业链上下游特点。将安徽新能源产业分为发、储、送、 运共计95个产业链节点。依托佰腾专利大数据资源,将涉及节点的企业进行分类上链,产业链节点上显示的是涉及节点产品的所有企业的详情,通过产业链图谱企业数据集可以精准把握产业链上下游产品节点及链主、伙伴角色,深度挖掘产业链中企业、高校、专家、专利的关联关系,精准匹配产业链产品�

安徽省数据知识产权登记平台 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

Natural Questions

Natural Questions (NQ) 包含真实用户向Google搜索提出的问题,以及注释者从维基百科找到的答案。NQ旨在用于训练和评估自动问答系统。

github 收录

ISCX-VPN-NonVPN-2016

该数据集包含VPN和非VPN流量的网络流量数据,用于网络流量分类和分析。数据集包括多种网络协议和应用的流量,旨在帮助研究者开发和评估网络流量分类算法。

www.unb.ca 收录