toutiao-text-classfication-dataset|文本分类数据集|新闻分析数据集
收藏中文文本分类数据集概述
数据来源
- 今日头条客户端
数据格式
- 每条数据包含五个字段,以
_!_
分隔,分别是:新闻ID、分类code、分类名称、新闻标题、新闻关键词。
分类code与名称
- 100: 民生 故事 (news_story)
- 101: 文化 文化 (news_culture)
- 102: 娱乐 娱乐 (news_entertainment)
- 103: 体育 体育 (news_sports)
- 104: 财经 财经 (news_finance)
- 106: 房产 房产 (news_house)
- 107: 汽车 汽车 (news_car)
- 108: 教育 教育 (news_edu)
- 109: 科技 科技 (news_tech)
- 110: 军事 军事 (news_military)
- 112: 旅游 旅游 (news_travel)
- 113: 国际 国际 (news_world)
- 114: 证券 股票 (stock)
- 115: 农业 三农 (news_agriculture)
- 116: 电竞 游戏 (news_game)
数据规模
- 共382688条数据,分布于15个分类中。
采集时间
- 2018年05月
实验结果
- 测试准确率(Test Acc)为83.81%。
- 各分类的precision, recall, f1-score和support数详见README文件。
存在的问题与优化建议
- 问题:数据不均衡,部分类目数据太少;部分分类之间模棱两可。
- 优化建议:增加数据量,完善分类,均衡分类数据,引入新闻正文。

Asteroids by the Minor Planet Center
包含所有已知小行星的轨道数据和观测数据。数据来源于Minor Planet Center,格式包括Fortran (.DAT)和JSON,数据集大小为81MB(压缩)和450MB(未压缩),记录数约750,000条,每日更新。
github 收录
中山市五桂山常住人口基本信息
中山市五桂山常住人口基本信息。
开放广东 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理学和眼底。该数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学领域的图像-文本数据,以促进可扩展的视觉语言模型(VLM)预训练。
github 收录
CAMUS_public-ImageMask-Dataset
这是一个用于图像分割的CAMUS_public(心脏多结构超声分割采集)数据集。该数据集包含来自500名患者的临床检查,这些检查在法国圣艾蒂安大学医院进行,并根据当地伦理委员会的规定进行了完全匿名化处理。数据集旨在执行左心室射血分数测量,并反映了临床实践中的数据多样性,包括图像质量和病理情况的广泛变异。数据集分为训练集(450名患者)和测试集(50名新患者),原始输入图像以raw/mhd文件格式提供。
github 收录
NAEP Data Explorer
NAEP Data Explorer是一个用于访问美国国家教育进展评估(NAEP)数据的平台。该数据集包含了美国各州和地区的教育评估数据,涵盖了从四年级到十二年级的学生成绩、教育资源分配、学生背景信息等多个方面。数据集提供了详细的统计分析和可视化工具,帮助教育研究人员、政策制定者和公众了解美国教育的现状和趋势。
www.nationsreportcard.gov 收录