five

知乎、微博热榜数据|社交媒体数据集|热榜数据数据集

收藏
github2024-10-09 更新2024-10-11 收录
社交媒体
热榜数据
下载链接:
https://github.com/zzjcool/huoju-data
下载链接
链接失效反馈
资源简介:
该数据集包含知乎和微博的热榜数据,包括热榜类型的基本信息、具体的热榜条目以及热榜条目的排名和热度指标。数据通过数据库表结构进行存储,包括HotType、Hot和Rank三个表。
创建时间:
2024-10-09
原始信息汇总

huoju-data

数据集概述

该数据集收集了知乎和微博的热榜数据。

数据表结构

表: HotType

用途: 存储热榜类型的基本信息。

字段名 数据类型 索引 注释
id bigint primary key 主键
type_name varchar(16) unique index 站点名称
refresh_time int 刷新时间

表: Hot

用途: 存储具体的热榜条目。

字段名 数据类型 索引 注释
id bigint primary key 主键
type_id int unique index (type_key) 热榜类型
unique_key varchar(64) unique index (type_key) 唯一标识
title varchar(255) index (idx_title) 标题
content text 内容
link varchar(255) 链接
image_link varchar(255) 图片链接

表: Rank

用途: 存储热榜条目的排名和热度指标。

字段名 数据类型 索引 注释
id bigint primary key 主键
type_id int index (idx_typename_timestamp) 站点名称
unique_key varchar(64) index 唯一标识
rank tinyint 排名
metric int 热度指标
timestamp int index (idx_typename_timestamp) 时间戳

详细说明

HotType 表

  • id: 主键,自动生成。
  • type_name: 站点名称,长度为16个字符,唯一索引。
  • refresh_time: 刷新时间,整数类型。

Hot 表

  • id: 主键,自动生成。
  • type_id: 热榜类型,整数类型,和 unique_key 组成唯一索引。
  • unique_key: 唯一标识,长度为64个字符,和 type_id 组成唯一索引。
  • title: 标题,长度为255个字符,索引 idx_title
  • content: 内容,文本类型。
  • link: 链接,长度为255个字符。
  • image_link: 图片链接,长度为255个字符。

Rank 表

  • id: 主键,自动生成。
  • type_id: 站点名称,整数类型,索引 idx_typename_timestamp
  • unique_key: 唯一标识,长度为64个字符,索引。
  • rank: 排名,tinyint 类型。
  • metric: 热度指标,整数类型。
  • timestamp: 时间戳,整数类型,索引 idx_typename_timestamp
AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过自动化脚本实时抓取知乎和微博的热榜数据,并将其存储于结构化的数据库中。具体而言,数据集构建过程包括三个主要步骤:首先,通过API或网页爬虫技术获取热榜的原始数据;其次,将获取的数据进行清洗和预处理,以确保数据的准确性和一致性;最后,将处理后的数据存储在三个主要表中,即HotType、Hot和Rank表,分别用于存储热榜类型的基本信息、具体的热榜条目以及条目的排名和热度指标。
特点
该数据集的显著特点在于其实时性和全面性。通过自动化脚本,数据集能够实时更新知乎和微博的热榜数据,确保用户获取的信息始终是最新的。此外,数据集的结构化设计使得数据易于查询和分析,三个主要表(HotType、Hot和Rank)分别涵盖了热榜的类型、条目内容以及排名和热度指标,为研究社交媒体的热点趋势提供了丰富的数据支持。
使用方法
用户可以通过访问数据集的GitHub页面下载最新数据,或通过提供的实时数据查看链接直接访问当前的热榜数据。在使用数据集时,用户可以根据需要查询HotType表以获取热榜类型的基本信息,使用Hot表获取具体的热榜条目,并通过Rank表分析条目的排名和热度指标。此外,数据集的结构化设计使得用户可以方便地进行数据筛选、排序和聚合操作,以满足不同的研究或应用需求。
背景与挑战
背景概述
在社交媒体和网络信息爆炸的时代,知乎和微博作为中国最具影响力的社交平台,其热榜数据不仅反映了公众的关注焦点,也为社会科学研究提供了宝贵的数据资源。该数据集由zzjcool创建,旨在收集和整理知乎与微博的热榜信息,包括热榜类型、具体条目及其排名和热度指标。这一数据集的创建,不仅有助于研究人员分析网络舆论的动态变化,也为企业决策提供了数据支持,具有重要的学术和商业价值。
当前挑战
该数据集在构建过程中面临诸多挑战。首先,热榜数据的实时性和动态性要求高效的抓取和更新机制,以确保数据的及时性和准确性。其次,数据的去重和唯一标识的生成是另一大挑战,特别是在处理大量重复内容时。此外,数据的安全性和隐私保护也是不可忽视的问题,尤其是在涉及用户生成内容时,如何确保数据使用的合规性是一个重要课题。最后,数据的存储和索引优化也是一大挑战,以应对大规模数据的快速检索需求。
常用场景
经典使用场景
在社交媒体分析领域,知乎、微博热榜数据集被广泛用于研究公众情绪、热点话题的演变以及用户行为的动态变化。通过分析热榜条目的排名和热度指标,研究者能够洞察社会舆论的走向,揭示特定事件或话题在公众中的影响力。此外,该数据集还可用于构建预测模型,以预测未来可能成为热点的内容,从而为内容创作者和营销策略提供数据支持。
实际应用
在实际应用中,知乎、微博热榜数据集被广泛用于舆情监控、市场分析和品牌管理。企业可以通过分析热榜数据,实时监控品牌声誉,了解消费者对产品的反馈,从而调整营销策略。政府部门则可以利用这些数据进行舆情分析,及时掌握社会动态,为公共政策的制定和调整提供参考。此外,新闻媒体和内容创作者也可以利用该数据集,策划更具吸引力的内容,提升传播效果。
衍生相关工作
知乎、微博热榜数据集的发布,催生了一系列相关研究和工作。例如,有研究者利用该数据集开发了社交媒体情绪分析工具,用以实时监测和分析公众情绪的变化。此外,还有学者基于此数据集构建了热点预测模型,用以预测未来可能成为热点的内容。这些衍生工作不仅丰富了社交媒体分析的理论框架,也为实际应用提供了强有力的技术支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

Houston2013, Berlin, Augsburg

本研究发布了三个多模态遥感基准数据集:Houston2013(高光谱和多光谱数据)、Berlin(高光谱和合成孔径雷达数据)和Augsburg(高光谱、合成孔径雷达和数字表面模型数据)。这些数据集用于土地覆盖分类,旨在通过共享和特定特征学习模型(S2FL)评估多模态基线。数据集包含不同模态和分辨率的图像,适用于评估和开发新的遥感图像处理技术。

arXiv 收录

THUCNews

THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。

github 收录

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

PCLT20K

PCLT20K数据集是由湖南大学等机构创建的一个大规模PET-CT肺癌肿瘤分割数据集,包含来自605名患者的21,930对PET-CT图像,所有图像都带有高质量的像素级肿瘤区域标注。该数据集旨在促进医学图像分割研究,特别是在PET-CT图像中肺癌肿瘤的分割任务。

arXiv 收录