community-datasets/sogou_news|新闻分类数据集|中文文本分析数据集
收藏搜狗新闻数据集(Sogou News)
数据集概述
搜狗新闻数据集包含来自搜狗CA和搜狗CS新闻语料库的2,909,551篇新闻文章,分为5个类别。每个类别的训练样本数量为90,000篇,测试样本数量为12,000篇。注意,中文汉字已转换为拼音。新闻的分类标签由其URL中的域名决定。
数据结构
数据实例
以下是一个训练样本的示例:
json { "content": "du2 jia1 ti2 go1ng me3i ri4 ba4o jia4 \n re4 xia4n :010-64438227\n che1 xi2ng ba4o jia4 - cha2 xu2n jie2 guo3 \n pi3n pa2i xi2ng ha4o jia4 ge2 ji1ng xia1o sha1ng ri4 qi1 zha1 ka4n ca1n shu4 pi2ng lu4n ", "label": 3, "title": " da3o ha2ng " }
数据字段
所有分割的数据字段相同:
title:字符串特征。content:字符串特征。label:分类标签,可能的值包括sports(0),finance(1),entertainment(2),automobile(3),technology(4)。
数据分割
| 名称 | 训练集 | 测试集 |
|---|---|---|
| 默认 | 450000 | 60000 |
数据集创建
数据集大小
- 下载的数据集文件大小:384.27 MB
- 生成的数据集大小:1.43 GB
- 总磁盘使用量:1.81 GB
引用信息
bibtex @misc{zhang2015characterlevel, title={Character-level Convolutional Networks for Text Classification}, author={Xiang Zhang and Junbo Zhao and Yann LeCun}, year={2015}, eprint={1509.01626}, archivePrefix={arXiv}, primaryClass={cs.LG} }
贡献者
感谢 @lhoestq, @mariamabarham, @lewtun, @thomwolf 添加此数据集。




