COVID-19 Instagram Dataset
收藏arXiv2020-04-26 更新2024-06-21 收录
下载链接:
https://github.com/kooshazarei/COVID-19-InstaPostIDs
下载链接
链接失效反馈官方服务:
资源简介:
COVID-19 Instagram数据集是由法国国立科学研究中心5157实验室等机构创建,专门收集与COVID-19相关的Instagram公开帖子。数据集包含5300个帖子,涵盖18.5K条评论和329K个点赞,主要使用英语。数据收集自2020年1月5日至3月30日,通过Instagram官方API和特定COVID-19相关标签进行爬取。该数据集旨在帮助研究社交媒体在疫情信息传播中的作用,特别是错误信息的传播。
The COVID-19 Instagram Dataset was developed by institutions including the CNRS UMR 5157 Laboratory of the French National Centre for Scientific Research, which specifically collects public Instagram posts related to COVID-19. The dataset contains 5,300 posts, encompassing 18.5K comments and 329K likes, and is primarily in English. The data was crawled between January 5 and March 30, 2020 using Instagram's official API and specific COVID-19-related hashtags. This dataset is intended to facilitate research on the role of social media in the spread of pandemic-related information, particularly the spread of misinformation.
提供机构:
法国国立科学研究中心5157实验室,南巴黎电信学院,巴黎综合理工学院
创建时间:
2020-04-26
搜集汇总
数据集介绍

构建方式
该数据集聚焦于新型冠状病毒(COVID-19)大流行背景下社交媒体内容的研究,鉴于图像型内容在信息传播与谣言扩散中的关键作用,研究者选择以Instagram平台为数据源。数据集通过官方Instagram API,利用一组预定义的COVID-19相关话题标签(如#coronavirus、#covid19等)进行持续性爬取,收集了自2020年1月5日至3月30日期间的公开帖子及其互动数据。每条帖子最多采集500条评论与500个点赞,数据以JSON格式存储于MongoDB数据库中,整个爬取过程在多台虚拟机上并行运行,以确保数据获取的连续性与效率。
特点
该数据集包含5.3K条帖子、18.5K条评论及329K个点赞,由2.5K个发布者贡献,覆盖多语种内容,其中英语占比约58.3%,西班牙语、葡萄牙语等亦有一定比例。数据集结构分为四大模块:帖子内容(含标题、话题标签、媒体类型、位置等)、发布者档案(如粉丝数、关注数、认证状态等)、评论特征(文本、时间、用户信息)及点赞特征。值得注意的是,帖子平均包含16个话题标签,仅0.2%为视频内容,且99%的发布者未获认证,这些特性为研究疫情下的信息传播模式与用户行为提供了丰富维度。
使用方法
研究者可通过GitHub平台(https://github.com/kooshazarei/COVID-19-InstaPostIDs)获取该数据集,但出于隐私与平台政策考量,仅发布帖子的唯一标识符(shortcode)。用户需借助开源工具(如Instaloader)根据这些ID重新检索完整的帖子内容与互动数据。该数据集适用于多种研究方向,包括分析疫情相关虚假信息的传播路径、检测机器人生成内容及其影响、评估社交隔离政策下的行为变化,以及探索信息分享的动态机制。持续更新的版本将进一步提升其研究价值。
背景与挑战
背景概述
自2020年初新型冠状病毒肺炎(COVID-19)被世界卫生组织宣布为大流行以来,全球社会经历了前所未有的公共卫生危机与社交隔离措施。在此背景下,社交媒体成为信息传播与公众互动的重要平台,尤其是以图像和短视频为核心的Instagram,在疫情信息扩散、公众情绪表达及虚假信息传播中扮演了关键角色。为填补该领域图像内容数据集匮乏的空白,Koosha Zarei、Reza Farahbakhsh等来自法国巴黎电信学院与英国伦敦玛丽女王大学的研究人员,于2020年3月30日启动了COVID-19 Instagram数据集的持续采集工作。该数据集收录了2020年1月5日至3月30日期间与特定疫情标签相关的5.3K条公开帖子、18.5K条评论及329K次点赞,覆盖多语种内容,为研究疫情相关的信息传播、行为变化及虚假信息治理提供了宝贵的视觉与文本混合数据资源。
当前挑战
该数据集面临的挑战主要体现在两个方面。在领域问题层面,尽管社交媒体上的文本数据(如Twitter)已被广泛用于疫情分析,但以图像为主的Instagram内容在虚假信息检测、恶意机器人行为识别及公众行为变化分析中仍存在显著困难,例如基于图像的模因传播难以通过传统文本方法建模,且多语种内容增加了跨文化信息理解的复杂性。在构建过程中,研究人员需应对Instagram官方API对数据采集的速率与数量限制,尤其是每帖评论与点赞的采集上限(各500条)可能导致样本偏差;此外,数据集仅发布帖子短代码而非原始内容,用户需借助第三方工具(如Instaloader)进行二次检索,这增加了数据复用的技术门槛,并可能因平台政策变动而导致部分数据不可访问。
常用场景
经典使用场景
在新型冠状病毒疫情席卷全球的背景下,社交媒体成为信息传播与公众互动的重要阵地。该数据集聚焦于Instagram这一以图像为核心媒介的平台,通过系统收集与COVID-19相关的话题标签(如#coronavirus、#covid19)所关联的公开帖子,为研究者提供了涵盖多语言文本、视觉内容及用户反应(评论与点赞)的丰富语料。其经典使用场景在于剖析疫情相关信息的视觉传播模式与公众情感动态,尤其适用于探索图像与短视频在健康危机中的叙事功能,弥补了以往仅依赖文本数据(如Twitter)的研究局限。
实际应用
在实际应用层面,该数据集可被公共卫生机构与政策制定者用于实时监测公众对防疫措施的反应,例如通过分析热门标签下的情感倾向来评估社交隔离政策的接受度。媒体与事实核查组织可借助其识别并遏制误导性视觉内容的病毒式传播,如利用图像特征检测虚假医疗建议。此外,平台运营方能够基于用户互动模式优化内容审核算法,在保障言论自由的同时减少有害信息曝光,进而提升健康危机期间数字生态的韧性。
衍生相关工作
该数据集催生了一系列经典后续研究,例如基于其多语言标注特性开发了针对疫情谣言跨文化传播的比较分析框架,揭示了不同语言社群中信息畸变的差异。另有工作结合计算机视觉技术,利用帖子中的图像哈希与标题文本训练模型,实现了对伪科学宣传的自动分类。此外,研究者借鉴其发布者元数据(如粉丝数与验证状态),构建了识别恶意机器人账户的分类器,并验证了这些账户在放大恐慌情绪中的协同行为。这些衍生工作共同推动了社交媒体流行病学与内容治理领域的理论创新。
以上内容由遇见数据集搜集并总结生成



