five

weibo-public-opinion-datasets|社交媒体分析数据集|舆情研究数据集

收藏
github2020-10-31 更新2024-05-31 收录
社交媒体分析
舆情研究
下载链接:
https://github.com/MuyangLi88/weibo-public-opinion-datasets
下载链接
链接失效反馈
资源简介:
持续维护的微博舆情数据集,用于研究最新的社会事件和公众舆论。数据集包括多种主题,如COVID-19等,通过高效的数据抓取方法构建,确保数据的真实性和全面性。

A continuously maintained Weibo public opinion dataset, designed for researching the latest social events and public discourse. The dataset encompasses a variety of topics, including COVID-19, and is constructed through efficient data scraping methods to ensure the authenticity and comprehensiveness of the data.
创建时间:
2020-05-26
原始信息汇总

数据集概述

数据集名称

  • 名称: weibo-public-opinion-datasets
  • 描述: 持续更新的新浪微博公共舆论数据集(仅用于研究)

数据集构建方法

  • 方法1: 基于微博高级搜索接口,但受限于搜索接口,最多只能获取1000条带有特定关键词和时间段的微博。
  • 方法2: 遍历所有微博用户,收集他们在特定时间段内的所有微博,并筛选出带有特定关键词的微博。然而,遍历数十亿微博用户需要大量资源和时间,效率低下。
  • 改进方法: 基于方法2,首先构建并动态维护一个高质量的微博活跃用户池(仅占所有用户的一小部分),然后仅遍历这些用户并收集他们在特定时间段内带有特定关键词的所有微博。

微博活跃用户池

  • 构建基础: 基于初始种子用户并通过社交关系持续扩展。
  • 用户数量: 超过2500万用户。
  • 筛选规则:
    • 关注者数量 > 50
    • 粉丝数量 > 50
    • 微博数量 > 50
    • 最近发帖时间 < 30天

微博公共舆论数据集

  • 数据集: COVID-19
  • 时间范围: 2019-12-01 00:00 - 2020-04-30 23:59 (GMT+8)
  • 关键词数量: 总共179个选定关键词
  • 数据量: 33,519,644条
  • 下载链接: https://pan.baidu.com/s/1uQB7SGQKy7C3MJuXBWJo5g 提取码: uphb
  • 数据格式: 包括字段如_id, crawl_time, created_at, like_num, repost_num, comment_num, content, origin_weibo, location_map_info等。

引用信息

  • 引用格式:

    @misc{hu2020weibocov, title={Weibo-COV: A Large-Scale COVID-19 Social Media Dataset from Weibo}, author={Yong Hu and Heyan Huang and Anfan Chen and Xian-Ling Mao}, year={2020}, eprint={2005.09174}, archivePrefix={arXiv}, primaryClass={cs.SI} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建微博公共舆论数据集的过程中,研究团队采用了一种创新的方法,以克服传统方法的局限性。首先,通过构建并动态维护一个高质量的微博活跃用户池,该用户池包含约2000万用户,占微博总用户数的8%。随后,仅针对这些活跃用户进行遍历,收集其在特定时间段内包含指定关键词的微博内容。这种方法不仅提高了数据采集的效率,还确保了数据集的规模和实时性。
使用方法
使用该数据集时,用户可以通过提供的下载链接获取数据,并参考数据结构描述文件了解每个字段的含义。数据集适用于多种研究目的,如社交媒体分析、公共舆论监测和危机管理等。在科学出版物中使用该数据集时,建议引用相关的BibTex条目以确保学术诚信。
背景与挑战
背景概述
微博作为中国最大的公共社交媒体平台,其上汇聚了大量实时且多样化的公众意见和事件讨论。为了深入研究这一平台的公众舆论动态,研究人员开发了微博公共舆论数据集。该数据集由Yong Hu等人在2020年创建,旨在通过收集和分析微博上的公开数据,揭示社会事件的公众反应和情感趋势。这一数据集不仅为社会科学研究提供了宝贵的资源,还为政策制定者和市场分析师提供了洞察公众情绪的窗口。
当前挑战
构建微博公共舆论数据集面临的主要挑战包括数据获取的限制和技术实现的复杂性。首先,微博平台的搜索接口限制了单次搜索结果的数量,这使得大规模数据集的构建变得困难。其次,遍历所有微博用户以收集数据需要巨大的计算资源和时间,效率低下。为应对这些挑战,研究人员提出了一种基于活跃用户池的新方法,通过动态维护一个高质量的活跃用户子集,显著提高了数据爬取的效率和数据集的规模。
常用场景
经典使用场景
在社交媒体分析领域,weibo-public-opinion-datasets 数据集的经典使用场景主要集中在舆情监测与分析。通过该数据集,研究者能够实时追踪和分析特定事件或话题在微博平台上的公众反应,从而揭示社会热点事件的传播路径和公众情绪变化。此外,该数据集还可用于构建情感分析模型,以评估公众对特定事件的态度和情感倾向。
解决学术问题
weibo-public-opinion-datasets 数据集解决了社交媒体研究中常见的数据获取难题,特别是在大规模数据采集和实时性方面。通过提供高质量、大规模的微博数据,该数据集为研究者提供了丰富的资源,用于探索社交媒体中的信息传播机制、用户行为模式以及公众情绪的动态变化。这不仅推动了社交媒体分析领域的学术研究,还为政策制定和社会治理提供了科学依据。
实际应用
在实际应用中,weibo-public-opinion-datasets 数据集被广泛用于政府和企业的舆情监控系统。通过分析微博上的公众言论,政府可以及时了解社会动态,制定相应的政策和措施。企业则可以利用该数据集进行市场调研和品牌声誉管理,通过监测消费者反馈,优化产品和服务。此外,新闻媒体和学术机构也利用该数据集进行深度报道和学术研究,以揭示社会现象和趋势。
数据集最近研究
最新研究方向
在社交媒体分析领域,微博公共舆论数据集的最新研究方向主要集中在利用大数据技术进行实时舆情监测和情感分析。通过构建高效的微博活跃用户池,研究人员能够更精确地捕捉和分析特定关键词下的公众情绪和舆论趋势。特别是在COVID-19疫情期间,该数据集被广泛用于研究社会心理变化、政策响应效果评估以及公共卫生事件的传播机制。这些研究不仅提升了舆情分析的准确性和实时性,也为政府和企业的决策提供了科学依据,具有重要的社会意义和应用价值。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

DALY

DALY数据集包含了全球疾病负担研究(Global Burden of Disease Study)中的伤残调整生命年(Disability-Adjusted Life Years, DALYs)数据。该数据集提供了不同国家和地区在不同年份的DALYs指标,用于衡量因疾病、伤害和早逝导致的健康损失。

ghdx.healthdata.org 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录