weibo-public-opinion-datasets|社交媒体分析数据集|舆情研究数据集
收藏数据集概述
数据集名称
- 名称: weibo-public-opinion-datasets
- 描述: 持续更新的新浪微博公共舆论数据集(仅用于研究)
数据集构建方法
- 方法1: 基于微博高级搜索接口,但受限于搜索接口,最多只能获取1000条带有特定关键词和时间段的微博。
- 方法2: 遍历所有微博用户,收集他们在特定时间段内的所有微博,并筛选出带有特定关键词的微博。然而,遍历数十亿微博用户需要大量资源和时间,效率低下。
- 改进方法: 基于方法2,首先构建并动态维护一个高质量的微博活跃用户池(仅占所有用户的一小部分),然后仅遍历这些用户并收集他们在特定时间段内带有特定关键词的所有微博。
微博活跃用户池
- 构建基础: 基于初始种子用户并通过社交关系持续扩展。
- 用户数量: 超过2500万用户。
- 筛选规则:
- 关注者数量 > 50
- 粉丝数量 > 50
- 微博数量 > 50
- 最近发帖时间 < 30天
微博公共舆论数据集
- 数据集: COVID-19
- 时间范围: 2019-12-01 00:00 - 2020-04-30 23:59 (GMT+8)
- 关键词数量: 总共179个选定关键词
- 数据量: 33,519,644条
- 下载链接: https://pan.baidu.com/s/1uQB7SGQKy7C3MJuXBWJo5g 提取码: uphb
- 数据格式: 包括字段如_id, crawl_time, created_at, like_num, repost_num, comment_num, content, origin_weibo, location_map_info等。
引用信息
-
引用格式:
@misc{hu2020weibocov, title={Weibo-COV: A Large-Scale COVID-19 Social Media Dataset from Weibo}, author={Yong Hu and Heyan Huang and Anfan Chen and Xian-Ling Mao}, year={2020}, eprint={2005.09174}, archivePrefix={arXiv}, primaryClass={cs.SI} }

中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
DALY
DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。
ghdx.healthdata.org 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录