WeiboHotListDataSet|社交媒体分析数据集|舆论研究数据集
收藏数据集概述
数据集名称
- WeiboHotListDataSet
数据集内容
- 抓取了微博热榜 2022-11-25 ~ 2023-03-08 中上榜的博文及其对应的评论数据。
数据结构
- archives.tar.gz
- 包含 2022-11-25 ~ 2023-03-08 的全部微博热榜词条,以每天的 markDown 文件形式保存。
- comments.tar.gz
- 包含对应的微博热榜词条的博文和与之对应的评论 Excel 文件。
文件命名与格式
- 博文与评论文件
- 博文文件命名格式:
词条名.xlsx
- 评论文件命名格式:
词条名/词条名_cmt博文bid.xlsx
- 博文文件命名格式:
示例
- 博文文件示例
- 包含博文ID、用户ID、用户名、发博时间、博文文本、转发数、评论数、点赞数等信息。
- 评论文件示例
- 包含评论ID、发布时间、用户ID、用户昵称、用户城市、点赞数、回复数、评论内容等信息。
下载方式
- Google Drive
- 共享链接:Google Drive 链接
- 百度网盘
- 链接:百度网盘 链接
- 提取码:i0lg
数据来源
许可证
- 使用 MIT License 发布。

THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
MOOCs Dataset
该数据集包含了大规模开放在线课程(MOOCs)的相关数据,包括课程信息、用户行为、学习进度等。数据主要用于研究在线教育的行为模式和学习效果。
www.kaggle.com 收录
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录