five

Weibo-COV|COVID-19数据集|社交媒体分析数据集

收藏
github2024-05-23 更新2024-05-31 收录
COVID-19
社交媒体分析
下载链接:
https://github.com/nghuyong/weibo-public-opinion-datasets
下载链接
链接失效反馈
资源简介:
Weibo-COV是一个大规模的COVID-19社交媒体数据集,包含了从2019年12月1日至2020年4月30日通过关键词筛选的40,893,832条微博,以及带有GEO标签的未经过滤的45,901,994条原始微博。

Weibo-COV is a large-scale COVID-19 social media dataset, encompassing 40,893,832 Weibo posts filtered by keywords from December 1, 2019, to April 30, 2020, along with 45,901,994 unfiltered original Weibo posts with GEO tags.
创建时间:
2020-02-20
原始信息汇总

数据集概述

数据集名称

  • Weibo-COV 1.0
  • Weibo-COV 2.0

数据集描述

  • Weibo-COV 1.0:

    • 时间范围: 2019-12-01 00:00 - 2020-04-30 23:59 (GMT+8)
    • 关键词: 共179个选定关键词
    • 数据量: 从692,792,816条原始推文中筛选出40,893,832条推文。此外,还发布了带有GEO标签的所有原始推文,共计45,901,994条,未经过关键词过滤。
    • 样本结构: 包括_id, user_id, crawl_time, created_at, like_num, repost_num, comment_num, content, origin_weibo, geo_info等字段。
  • Weibo-COV 2.0:

    • 时间范围: 2019-12-01 00:00 - 2020-12-30 23:59 (GMT+8)
    • 关键词: 包含通用关键词和每月不同的关键词,用于过滤当月所有原始推文。
    • 数据量: 从2,615,185,101条原始推文中筛选出65,175,112条推文。
    • 样本结构: 包括_id, user_id, crawl_time, created_at, like_num, repost_num, comment_num, content, origin_weibo, geo_info等字段。

数据集更新

  • 2021-01-18: 发布Weibo-COV 2.0,包含2000万微博活跃用户池。
  • 2020-12-30: Weibo-COV已支持超过200个项目。
  • 2020-10-06: 关于此数据集的论文已被NLP4COVID@EMNLP2020接受。
  • 2020-06-24: 添加user_id以识别每个用户,该ID是原始微博user_id的哈希结果。

数据集下载

  • 获取数据集需填写相应的申请表并发送至Yong Hu (nghuyong@163.com) 和 Anfan Chen (caftsinghuaedu@gmail.com)。

引用信息

@inproceedings{hu-etal-2020-weibo, title = "{W}eibo-{COV}: A Large-Scale {COVID}-19 Social Media Dataset from {W}eibo", author = "Hu, Yong and Huang, Heyan and Chen, Anfan and Mao, Xian-Ling", booktitle = "Proceedings of the 1st Workshop on {NLP} for {COVID}-19 (Part 2) at {EMNLP} 2020", month = dec, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.nlpcovid19-2.34", doi = "10.18653/v1/2020.nlpcovid19-2.34", }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Weibo-COV数据集的构建基于对微博平台上与COVID-19相关的大量推文的系统性收集与筛选。该数据集的时间跨度从2019年12月1日至2020年12月30日,涵盖了疫情初期至相对稳定期的关键阶段。构建过程中,研究团队首先通过179个精选关键词对原始推文进行初步过滤,随后对这些推文进行详细的数据清洗和标注,包括用户ID、发布时间、点赞数、转发数、评论数以及地理位置信息等。此外,为了保护用户隐私,用户ID经过哈希处理。最终,数据集包含了65,175,112条经过关键词过滤的推文和45,901,994条带有地理位置标签的原始推文。
特点
Weibo-COV数据集的主要特点在于其大规模、多维度以及时间序列上的连续性。首先,数据集包含了超过6500万条推文,为研究COVID-19在社交媒体上的传播提供了丰富的数据基础。其次,数据集不仅包含了推文内容,还涵盖了用户行为数据,如点赞、转发和评论,这为分析公众情绪和行为模式提供了可能。此外,数据集的时间跨度长达一年,使得研究者能够追踪疫情发展与社交媒体反应之间的动态关系。最后,数据集还提供了经过脱敏处理的用户池,进一步支持了用户行为和社交网络分析。
使用方法
Weibo-COV数据集适用于多种研究目的,包括但不限于疫情传播分析、公众情绪监测、社交媒体用户行为研究以及舆情预测。研究者可以通过关键词检索、时间序列分析和用户行为统计等方法,深入挖掘数据中的信息。为了获取数据集,研究者需填写申请表并发送至指定邮箱,经过审核后即可获得访问权限。数据集的下载和使用需遵守相关法律法规和伦理规范,确保数据的安全性和隐私保护。
背景与挑战
背景概述
Weibo-COV数据集是由Yong Hu、Heyan Huang、Anfan Chen和Xian-Ling Mao等研究人员于2020年创建的,旨在通过大规模的微博数据分析COVID-19疫情对社会舆论的影响。该数据集涵盖了2019年12月至2020年12月的时间段,包含超过6500万条微博数据,通过179个关键词进行筛选,旨在捕捉与疫情相关的公众情绪和信息传播模式。Weibo-COV不仅为疫情研究提供了宝贵的数据资源,还为社交媒体分析和公共卫生政策制定提供了重要的参考。
当前挑战
Weibo-COV数据集在构建过程中面临多项挑战。首先,数据量庞大,从近26亿条原始微博中筛选出相关数据,需要高效的算法和计算资源。其次,关键词筛选方法需不断优化,以确保数据的准确性和代表性。此外,数据隐私和安全问题也是一大挑战,尤其是在处理用户ID和地理位置信息时,需确保数据脱敏和合规性。最后,如何从海量数据中提取有价值的信息,并应用于实际的疫情监测和政策制定,是该数据集面临的另一重要挑战。
常用场景
经典使用场景
在公共卫生与社会科学领域,Weibo-COV数据集以其庞大的微博用户数据和详尽的疫情相关内容,成为研究COVID-19疫情传播与公众反应的经典工具。研究者利用该数据集分析疫情初期公众情绪变化、谣言传播路径以及政府政策的社会反响,从而为疫情应对策略提供数据支持。
衍生相关工作
基于Weibo-COV数据集,研究者们开展了多项衍生工作,包括开发疫情预测模型、设计公众情绪分析工具以及构建社交媒体信息传播网络。这些工作不仅丰富了疫情研究的理论框架,还为实际应用提供了技术支持,推动了社交媒体数据在公共卫生领域的深度应用。
数据集最近研究
最新研究方向
在新冠疫情背景下,Weibo-COV数据集的最新研究方向主要集中在社交媒体数据的情感分析、舆情监测以及用户行为模式识别。通过分析微博平台上与疫情相关的大量文本数据,研究人员能够深入了解公众对疫情的情感反应和态度变化,从而为政策制定和公共卫生管理提供有力支持。此外,该数据集还促进了基于社交媒体的疫情传播模型研究,有助于预测和控制疫情扩散。这些研究不仅提升了对疫情影响的理解,也为未来公共卫生事件的应对策略提供了宝贵的数据资源。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录

熟肉制品在全国需求价格弹性分析数据

为更好了解各市对熟肉制品的市场需求情况,本行业所有企业对相关熟肉制品需求弹性数据进行采集计算。如果熟肉制品需求量变动的比率大于价格变动的比率,那么熟肉制品需求富有弹性,说明顾客对于熟肉制品价格变化的敏感程度大,弹性越大,需求对价格变化越敏感,本行业所有企业可以在该市适当的降低熟肉制品价格来获得较多的收益。如果熟肉制品需求缺乏弹性,本行业所有企业可以在该市适当的提高熟肉制品价格来获得较多的收益。该项数据对本行业所有企业在全国的市场营销决策有重要意义。1.数据采集:采集相关熟肉制品在某一时间段全国的的需求数据和价格数据,按照市级进行整理归纳,得到该熟肉制品的需求量变动数值和价格变化数值。 2.算法规则:对采集得到的数据按照如下公式进行计算:需求弹性系数Ed=-(△Q/Q)÷(△P/P),得到需求弹性系数。式中:Q表示产品的需求量,单位为份;P表示产品的价格,单位为元;△Q表示需求量同比变动值,单位为份;△P表示价格同比变动值,单位为元。取需求弹性系数的绝对值|Ed|作为分析数据时的参考系数。 3.数据分析:根据|Ed|的数值可分析该熟肉制品的需求价格弹性。(1)|Ed|=1(单位需求价格弹性),说明需求量变动幅度与价格变动幅度相同;(2)1<|Ed|(需求富有弹性),说明需求量变动幅度大于价格变动幅度;(3)|Ed|<1(需求缺乏弹性),说明需求量变动幅度小于价格变动幅度。

浙江省数据知识产权登记平台 收录