community-datasets/sogou_news|新闻分类数据集|中文文本分析数据集
收藏搜狗新闻数据集(Sogou News)
数据集概述
搜狗新闻数据集包含来自搜狗CA和搜狗CS新闻语料库的2,909,551篇新闻文章,分为5个类别。每个类别的训练样本数量为90,000篇,测试样本数量为12,000篇。注意,中文汉字已转换为拼音。新闻的分类标签由其URL中的域名决定。
数据结构
数据实例
以下是一个训练样本的示例:
json { "content": "du2 jia1 ti2 go1ng me3i ri4 ba4o jia4 \n re4 xia4n :010-64438227\n che1 xi2ng ba4o jia4 - cha2 xu2n jie2 guo3 \n pi3n pa2i xi2ng ha4o jia4 ge2 ji1ng xia1o sha1ng ri4 qi1 zha1 ka4n ca1n shu4 pi2ng lu4n ", "label": 3, "title": " da3o ha2ng " }
数据字段
所有分割的数据字段相同:
title
:字符串特征。content
:字符串特征。label
:分类标签,可能的值包括sports
(0),finance
(1),entertainment
(2),automobile
(3),technology
(4)。
数据分割
名称 | 训练集 | 测试集 |
---|---|---|
默认 | 450000 | 60000 |
数据集创建
数据集大小
- 下载的数据集文件大小:384.27 MB
- 生成的数据集大小:1.43 GB
- 总磁盘使用量:1.81 GB
引用信息
bibtex @misc{zhang2015characterlevel, title={Character-level Convolutional Networks for Text Classification}, author={Xiang Zhang and Junbo Zhao and Yann LeCun}, year={2015}, eprint={1509.01626}, archivePrefix={arXiv}, primaryClass={cs.LG} }
贡献者
感谢 @lhoestq, @mariamabarham, @lewtun, @thomwolf 添加此数据集。

Project Gutenberg
Project Gutenberg是一个提供免费电子书的数据集,包含超过60,000本免费电子书,涵盖了文学、历史、科学等多个领域。这些电子书主要以公共领域作品为主,用户可以自由下载和使用。
www.gutenberg.org 收录
FLIR Dataset
该数据集主要提供三种类型的热成像图像:训练集包含8862张热成像图像,验证集包含1366张热成像图像,视频集包含4224张热成像图像。这些图像被用于训练YOLOv3检测器,并在验证集上报告了mAP。视频集用于跟踪检测到的对象。
github 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
jpft/danbooru2023
Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。
hugging_face 收录
poi
本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。
github 收录