community-datasets/sogou_news|新闻分类数据集|中文文本分析数据集
收藏搜狗新闻数据集(Sogou News)
数据集概述
搜狗新闻数据集包含来自搜狗CA和搜狗CS新闻语料库的2,909,551篇新闻文章,分为5个类别。每个类别的训练样本数量为90,000篇,测试样本数量为12,000篇。注意,中文汉字已转换为拼音。新闻的分类标签由其URL中的域名决定。
数据结构
数据实例
以下是一个训练样本的示例:
json { "content": "du2 jia1 ti2 go1ng me3i ri4 ba4o jia4 \n re4 xia4n :010-64438227\n che1 xi2ng ba4o jia4 - cha2 xu2n jie2 guo3 \n pi3n pa2i xi2ng ha4o jia4 ge2 ji1ng xia1o sha1ng ri4 qi1 zha1 ka4n ca1n shu4 pi2ng lu4n ", "label": 3, "title": " da3o ha2ng " }
数据字段
所有分割的数据字段相同:
title
:字符串特征。content
:字符串特征。label
:分类标签,可能的值包括sports
(0),finance
(1),entertainment
(2),automobile
(3),technology
(4)。
数据分割
名称 | 训练集 | 测试集 |
---|---|---|
默认 | 450000 | 60000 |
数据集创建
数据集大小
- 下载的数据集文件大小:384.27 MB
- 生成的数据集大小:1.43 GB
- 总磁盘使用量:1.81 GB
引用信息
bibtex @misc{zhang2015characterlevel, title={Character-level Convolutional Networks for Text Classification}, author={Xiang Zhang and Junbo Zhao and Yann LeCun}, year={2015}, eprint={1509.01626}, archivePrefix={arXiv}, primaryClass={cs.LG} }
贡献者
感谢 @lhoestq, @mariamabarham, @lewtun, @thomwolf 添加此数据集。

HUSTgearbox
This reposotory release a gearbox failure dataset, which can support intelliegnt fault diagnosis research
github 收录
GME Data
关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。
github 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
Movies Dataset
这个数据集包含电影的详细信息,包括电影名称、评分、类型、年份、发布日期、IMDb评分、投票数、导演、编剧、主演、制作国家、预算、总收入、制作公司和电影时长。
github 收录