five

toutiao-text-classfication-dataset|文本分类数据集|新闻数据数据集

收藏
github2020-12-09 更新2024-05-31 收录
文本分类
新闻数据
下载链接:
https://github.com/yangxx17/toutiao-text-classfication-dataset
下载链接
链接失效反馈
资源简介:
今日头条中文新闻(文本)分类数据集,包含382688条新闻数据,分布于15个分类中,数据格式为每行一条数据,包含新闻ID、分类code、分类名称、新闻标题和关键词。

The Toutiao Chinese News (Text) Classification Dataset comprises 382,688 news entries distributed across 15 categories. Each entry is formatted as a single line, containing the news ID, category code, category name, news title, and keywords.
创建时间:
2019-11-28
原始信息汇总

中文文本分类数据集概述

数据来源

  • 今日头条客户端

数据格式

  • 每条数据包含五个字段,以_!_分割,分别为:新闻ID、分类code、分类名称、新闻标题、新闻关键词。

分类信息

  • 共有15个分类,每个分类对应一个code和名称,例如:
    • 100: 民生故事 (news_story)
    • 101: 文化文化 (news_culture)
    • 102: 娱乐娱乐 (news_entertainment)
    • 103: 体育体育 (news_sports)
    • 104: 财经财经 (news_finance)
    • 106: 房产房产 (news_house)
    • 107: 汽车汽车 (news_car)
    • 108: 教育教育 (news_edu)
    • 109: 科技科技 (news_tech)
    • 110: 军事军事 (news_military)
    • 112: 旅游旅游 (news_travel)
    • 113: 国际国际 (news_world)
    • 114: 证券股票 (stock)
    • 115: 农业三农 (news_agriculture)
    • 116: 电竞游戏 (news_game)

数据规模

  • 总计382688条数据,分布于上述15个分类中。

采集时间

  • 2018年05月

实验结果

  • 分类实验结果如下:
    • 平均准确率(precision)、召回率(recall)和F1分数(f1-score)为84%。
    • 部分分类的性能较低,主要原因是数据不均衡和分类之间的模糊性。

后续优化建议

  • 增加数据量
  • 完善分类体系
  • 平衡各类别数据量
  • 引入新闻正文内容
AI搜集汇总
数据集介绍
main_image_url
构建方式
toutiao-text-classfication-dataset数据集构建于2018年5月,数据来源于今日头条客户端。每条数据以`_!_`分割,包含新闻ID、分类code、分类名称、新闻标题及关键词。数据集共包含382,688条数据,分布于15个不同的新闻分类中,涵盖了从民生、文化到科技、军事等多个领域。
特点
该数据集的特点在于其广泛覆盖的新闻类别和丰富的文本内容。每个类别下的数据量分布不均,部分类别如娱乐和体育的数据量较大,而股票类别的数据量较少。此外,数据集中每条记录都包含了新闻标题和关键词,这为文本分类任务提供了丰富的特征信息。
使用方法
使用toutiao-text-classfication-dataset时,首先需要将数据按0.7:0.15:0.15的比例分割为训练集、验证集和测试集。可以利用新闻标题和关键词作为输入特征,通过机器学习或深度学习模型进行文本分类。实验结果表明,该数据集在多个分类任务上表现良好,尤其是在娱乐和体育类别上。然而,由于数据不均衡和部分类别之间的模糊性,模型在某些类别上的表现仍有提升空间。
背景与挑战
背景概述
toutiao-text-classfication-dataset是由今日头条客户端于2018年5月发布的中文文本分类数据集,旨在为自然语言处理领域的研究者提供一个大规模、多类别的文本分类基准。该数据集包含382,688条新闻标题,涵盖15个不同的类别,如娱乐、体育、财经等。数据集的创建者通过今日头条客户端采集了大量真实新闻数据,为文本分类算法的研究提供了丰富的实验材料。该数据集在中文文本分类领域具有重要的影响力,推动了相关算法的优化与创新。
当前挑战
toutiao-text-classfication-dataset在构建和应用过程中面临多重挑战。首先,数据类别分布不均衡,部分类别(如股票)样本数量极少,导致模型在这些类别上的表现较差。其次,某些类别之间的界限模糊(如故事、文化与旅行),增加了分类难度。此外,数据集中仅包含新闻标题,缺乏正文内容,限制了模型对上下文信息的利用。未来优化方向包括扩充数据规模、增加更多类别、平衡类别分布以及引入新闻正文,以进一步提升模型的分类性能。
常用场景
经典使用场景
toutiao-text-classfication-dataset数据集广泛应用于中文文本分类任务中,特别是在新闻领域。研究者利用该数据集训练和测试机器学习模型,以自动识别和分类新闻文章到预定义的类别中。这种分类能力对于新闻聚合、个性化推荐系统以及内容管理系统的开发至关重要。
实际应用
在实际应用中,toutiao-text-classfication-dataset被用于构建和优化新闻推荐系统,帮助用户根据个人兴趣快速找到相关新闻。此外,该数据集还支持媒体机构自动化内容分类,提高内容分发的效率和准确性,从而增强用户体验和内容管理的自动化水平。
衍生相关工作
基于toutiao-text-classfication-dataset,许多研究工作得以展开,包括深度学习模型在文本分类中的应用、跨语言文本分类技术的研究以及文本分类模型的鲁棒性改进。这些研究不仅提升了中文文本分类的技术水平,也为其他语言的文本处理提供了参考和借鉴。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

DroneVehicle 大规模无人机航拍车辆检测数据集

这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。

超神经 收录

LendingClub Loan Data

Loan & Rejects (2007 to 2019Q3)

kaggle 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

全国景区数据

  中华人民共和国旅游景区质量等级共分为五级,从高到低依次为AAAAA、AAAA、AAA、AA、A级五级。5A级景区代表着中国的世界级精品旅游风景区等级。  CnOpenData汇总整理了全国31个省份及直辖市的景区信息,涵盖了景区名称、省份、景区级别、地址、经纬度、简介等字段,为相关研究助力!

CnOpenData 收录