weibo-public-opinion-datasets
收藏github2020-10-31 更新2024-05-31 收录
下载链接:
https://github.com/MuyangLi88/weibo-public-opinion-datasets
下载链接
链接失效反馈官方服务:
资源简介:
持续维护的微博舆情数据集,用于研究最新的社会事件和公众舆论。数据集包括多种主题,如COVID-19等,通过高效的数据抓取方法构建,确保数据的真实性和全面性。
A continuously maintained Weibo public opinion dataset, designed for researching the latest social events and public discourse. The dataset encompasses a variety of topics, including COVID-19, and is constructed through efficient data scraping methods to ensure the authenticity and comprehensiveness of the data.
创建时间:
2020-05-26
原始信息汇总
数据集概述
数据集名称
- 名称: weibo-public-opinion-datasets
- 描述: 持续更新的新浪微博公共舆论数据集(仅用于研究)
数据集构建方法
- 方法1: 基于微博高级搜索接口,但受限于搜索接口,最多只能获取1000条带有特定关键词和时间段的微博。
- 方法2: 遍历所有微博用户,收集他们在特定时间段内的所有微博,并筛选出带有特定关键词的微博。然而,遍历数十亿微博用户需要大量资源和时间,效率低下。
- 改进方法: 基于方法2,首先构建并动态维护一个高质量的微博活跃用户池(仅占所有用户的一小部分),然后仅遍历这些用户并收集他们在特定时间段内带有特定关键词的所有微博。
微博活跃用户池
- 构建基础: 基于初始种子用户并通过社交关系持续扩展。
- 用户数量: 超过2500万用户。
- 筛选规则:
- 关注者数量 > 50
- 粉丝数量 > 50
- 微博数量 > 50
- 最近发帖时间 < 30天
微博公共舆论数据集
- 数据集: COVID-19
- 时间范围: 2019-12-01 00:00 - 2020-04-30 23:59 (GMT+8)
- 关键词数量: 总共179个选定关键词
- 数据量: 33,519,644条
- 下载链接: https://pan.baidu.com/s/1uQB7SGQKy7C3MJuXBWJo5g 提取码: uphb
- 数据格式: 包括字段如_id, crawl_time, created_at, like_num, repost_num, comment_num, content, origin_weibo, location_map_info等。
引用信息
-
引用格式:
@misc{hu2020weibocov, title={Weibo-COV: A Large-Scale COVID-19 Social Media Dataset from Weibo}, author={Yong Hu and Heyan Huang and Anfan Chen and Xian-Ling Mao}, year={2020}, eprint={2005.09174}, archivePrefix={arXiv}, primaryClass={cs.SI} }
搜集汇总
数据集介绍

构建方式
在构建微博公共舆论数据集的过程中,研究团队采用了一种创新的方法,以克服传统方法的局限性。首先,通过构建并动态维护一个高质量的微博活跃用户池,该用户池包含约2000万用户,占微博总用户数的8%。随后,仅针对这些活跃用户进行遍历,收集其在特定时间段内包含指定关键词的微博内容。这种方法不仅提高了数据采集的效率,还确保了数据集的规模和实时性。
使用方法
使用该数据集时,用户可以通过提供的下载链接获取数据,并参考数据结构描述文件了解每个字段的含义。数据集适用于多种研究目的,如社交媒体分析、公共舆论监测和危机管理等。在科学出版物中使用该数据集时,建议引用相关的BibTex条目以确保学术诚信。
背景与挑战
背景概述
微博作为中国最大的公共社交媒体平台,其上汇聚了大量实时且多样化的公众意见和事件讨论。为了深入研究这一平台的公众舆论动态,研究人员开发了微博公共舆论数据集。该数据集由Yong Hu等人在2020年创建,旨在通过收集和分析微博上的公开数据,揭示社会事件的公众反应和情感趋势。这一数据集不仅为社会科学研究提供了宝贵的资源,还为政策制定者和市场分析师提供了洞察公众情绪的窗口。
当前挑战
构建微博公共舆论数据集面临的主要挑战包括数据获取的限制和技术实现的复杂性。首先,微博平台的搜索接口限制了单次搜索结果的数量,这使得大规模数据集的构建变得困难。其次,遍历所有微博用户以收集数据需要巨大的计算资源和时间,效率低下。为应对这些挑战,研究人员提出了一种基于活跃用户池的新方法,通过动态维护一个高质量的活跃用户子集,显著提高了数据爬取的效率和数据集的规模。
常用场景
经典使用场景
在社交媒体分析领域,weibo-public-opinion-datasets 数据集的经典使用场景主要集中在舆情监测与分析。通过该数据集,研究者能够实时追踪和分析特定事件或话题在微博平台上的公众反应,从而揭示社会热点事件的传播路径和公众情绪变化。此外,该数据集还可用于构建情感分析模型,以评估公众对特定事件的态度和情感倾向。
解决学术问题
weibo-public-opinion-datasets 数据集解决了社交媒体研究中常见的数据获取难题,特别是在大规模数据采集和实时性方面。通过提供高质量、大规模的微博数据,该数据集为研究者提供了丰富的资源,用于探索社交媒体中的信息传播机制、用户行为模式以及公众情绪的动态变化。这不仅推动了社交媒体分析领域的学术研究,还为政策制定和社会治理提供了科学依据。
实际应用
在实际应用中,weibo-public-opinion-datasets 数据集被广泛用于政府和企业的舆情监控系统。通过分析微博上的公众言论,政府可以及时了解社会动态,制定相应的政策和措施。企业则可以利用该数据集进行市场调研和品牌声誉管理,通过监测消费者反馈,优化产品和服务。此外,新闻媒体和学术机构也利用该数据集进行深度报道和学术研究,以揭示社会现象和趋势。
数据集最近研究
最新研究方向
在社交媒体分析领域,微博公共舆论数据集的最新研究方向主要集中在利用大数据技术进行实时舆情监测和情感分析。通过构建高效的微博活跃用户池,研究人员能够更精确地捕捉和分析特定关键词下的公众情绪和舆论趋势。特别是在COVID-19疫情期间,该数据集被广泛用于研究社会心理变化、政策响应效果评估以及公共卫生事件的传播机制。这些研究不仅提升了舆情分析的准确性和实时性,也为政府和企业的决策提供了科学依据,具有重要的社会意义和应用价值。
以上内容由遇见数据集搜集并总结生成



