toutiao-text-classfication-dataset|文本分类数据集|新闻数据数据集
收藏中文文本分类数据集概述
数据来源
- 今日头条客户端
数据格式
- 每条数据包含五个字段,以
_!_
分割,分别为:新闻ID、分类code、分类名称、新闻标题、新闻关键词。
分类信息
- 共有15个分类,每个分类对应一个code和名称,例如:
- 100: 民生故事 (news_story)
- 101: 文化文化 (news_culture)
- 102: 娱乐娱乐 (news_entertainment)
- 103: 体育体育 (news_sports)
- 104: 财经财经 (news_finance)
- 106: 房产房产 (news_house)
- 107: 汽车汽车 (news_car)
- 108: 教育教育 (news_edu)
- 109: 科技科技 (news_tech)
- 110: 军事军事 (news_military)
- 112: 旅游旅游 (news_travel)
- 113: 国际国际 (news_world)
- 114: 证券股票 (stock)
- 115: 农业三农 (news_agriculture)
- 116: 电竞游戏 (news_game)
数据规模
- 总计382688条数据,分布于上述15个分类中。
采集时间
- 2018年05月
实验结果
- 分类实验结果如下:
- 平均准确率(precision)、召回率(recall)和F1分数(f1-score)为84%。
- 部分分类的性能较低,主要原因是数据不均衡和分类之间的模糊性。
后续优化建议
- 增加数据量
- 完善分类体系
- 平衡各类别数据量
- 引入新闻正文内容

LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
DroneVehicle 大规模无人机航拍车辆检测数据集
这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。
超神经 收录
LendingClub Loan Data
Loan & Rejects (2007 to 2019Q3)
kaggle 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
全国景区数据
中华人民共和国旅游景区质量等级共分为五级,从高到低依次为AAAAA、AAAA、AAA、AA、A级五级。5A级景区代表着中国的世界级精品旅游风景区等级。 CnOpenData汇总整理了全国31个省份及直辖市的景区信息,涵盖了景区名称、省份、景区级别、地址、经纬度、简介等字段,为相关研究助力!
CnOpenData 收录