知乎、微博热榜数据|社交媒体数据集|热榜数据数据集
收藏huoju-data
数据集概述
该数据集收集了知乎和微博的热榜数据。
数据表结构
表: HotType
用途: 存储热榜类型的基本信息。
字段名 | 数据类型 | 索引 | 注释 |
---|---|---|---|
id | bigint | primary key | 主键 |
type_name | varchar(16) | unique index | 站点名称 |
refresh_time | int | 刷新时间 |
表: Hot
用途: 存储具体的热榜条目。
字段名 | 数据类型 | 索引 | 注释 |
---|---|---|---|
id | bigint | primary key | 主键 |
type_id | int | unique index (type_key) | 热榜类型 |
unique_key | varchar(64) | unique index (type_key) | 唯一标识 |
title | varchar(255) | index (idx_title) | 标题 |
content | text | 内容 | |
link | varchar(255) | 链接 | |
image_link | varchar(255) | 图片链接 |
表: Rank
用途: 存储热榜条目的排名和热度指标。
字段名 | 数据类型 | 索引 | 注释 |
---|---|---|---|
id | bigint | primary key | 主键 |
type_id | int | index (idx_typename_timestamp) | 站点名称 |
unique_key | varchar(64) | index | 唯一标识 |
rank | tinyint | 排名 | |
metric | int | 热度指标 | |
timestamp | int | index (idx_typename_timestamp) | 时间戳 |
详细说明
HotType 表
id
: 主键,自动生成。type_name
: 站点名称,长度为16个字符,唯一索引。refresh_time
: 刷新时间,整数类型。
Hot 表
id
: 主键,自动生成。type_id
: 热榜类型,整数类型,和unique_key
组成唯一索引。unique_key
: 唯一标识,长度为64个字符,和type_id
组成唯一索引。title
: 标题,长度为255个字符,索引idx_title
。content
: 内容,文本类型。link
: 链接,长度为255个字符。image_link
: 图片链接,长度为255个字符。
Rank 表
id
: 主键,自动生成。type_id
: 站点名称,整数类型,索引idx_typename_timestamp
。unique_key
: 唯一标识,长度为64个字符,索引。rank
: 排名,tinyint 类型。metric
: 热度指标,整数类型。timestamp
: 时间戳,整数类型,索引idx_typename_timestamp
。

Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
Houston2013, Berlin, Augsburg
本研究发布了三个多模态遥感基准数据集:Houston2013(高光谱和多光谱数据)、Berlin(高光谱和合成孔径雷达数据)和Augsburg(高光谱、合成孔径雷达和数字表面模型数据)。这些数据集用于土地覆盖分类,旨在通过共享和特定特征学习模型(S2FL)评估多模态基线。数据集包含不同模态和分辨率的图像,适用于评估和开发新的遥感图像处理技术。
arXiv 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
PCLT20K
PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。
arXiv 收录