Twitter Chatter about Online Learning during the Current COVID-19 Omicron Wave

Name: Twitter Chatter about Online Learning during the Current COVID-19 Omicron Wave
Creator: 辛辛那提大学电气工程与计算机科学系
Published: 2022-07-21 02:01:18
License: 暂无描述

arXiv2022-07-21 更新2024-06-21 收录

下载链接：

https://doi.org/10.5281/zenodo.6837118

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为‘Twitter Chatter about Online Learning during the Current COVID-19 Omicron Wave’，由辛辛那提大学电气工程与计算机科学系的Nirmalya Thakur创建。数据集包含52,984条关于在线学习的Twitter对话，涵盖了自2021年11月9日至2022年7月13日的时间段。该数据集旨在为分析COVID-19奥密克戎波期间对在线学习的兴趣、观点和反馈提供资源。数据集遵循Twitter的隐私政策和内容再分发指南，以及FAIR原则，确保数据的易查找性、可访问性、互操作性和可重用性。

This dataset, titled "Twitter Chatter about Online Learning during the Current COVID-19 Omicron Wave", was created by Nirmalya Thakur from the Department of Electrical Engineering and Computer Science at the University of Cincinnati. The dataset includes 52,984 Twitter conversations about online learning, covering the timeframe from November 9, 2021 to July 13, 2022. This dataset is designed to provide a resource for analyzing public interest, perspectives, and feedback regarding online learning during the COVID-19 Omicron wave. It complies with Twitter's Privacy Policy and Content Redistribution Guidelines, as well as the FAIR Principles, which ensure the findability, accessibility, interoperability, and reusability of the data.

提供机构：

辛辛那提大学电气工程与计算机科学系

创建时间：

2022-07-21

搜集汇总

数据集介绍

构建方式

在奥密克戎变异株引发全球疫情反弹的背景下，在线学习成为教育领域的热点议题，社交媒体上相关讨论激增。本研究基于Twitter平台，借助RapidMiner Studio中的Search Twitter操作器，结合Twitter API的高级搜索功能，构建了一套包含在线学习与COVID-19相关关键词的词袋，于2021年11月9日至2022年7月13日期间进行推文采集。原始数据经过去重处理，最终保留52,984条唯一推文ID，并按月份分类存储为九个.txt文件。数据集严格遵守Twitter隐私政策、开发者协议及内容再分发指南，仅发布推文ID以规避隐私风险。

使用方法

用户可通过Hydrator、Social Media Mining Toolkit或Twarc等工具对数据集中的推文ID进行水化处理，以获取推文文本、用户信息、时间戳、转发数等元数据。水化后的数据适用于多种分析场景，包括情感分析、主题建模、讽刺检测、流行度预测、信息可信度评估、用户画像构建等。该数据集为大数据挖掘、自然语言处理及教育政策研究提供了丰富的全球视角，尤其适用于探究奥密克戎疫情期间公众对在线学习的态度与行为模式。

背景与挑战

背景概述

自2019年新型冠状病毒肺炎疫情暴发以来，全球教育体系经历了前所未有的震荡与转型。随着奥密克戎变异株于2021年11月被首次检出，其凭借极强的免疫逃逸能力迅速成为全球主要流行株，导致多国学校、学院与大学再度转向线上教学。在此背景下，社交媒体平台推特上关于在线学习的讨论急剧增加。由辛辛那提大学电气工程与计算机科学系的Nirmalya Thakur于2022年创建的大规模推特数据集，系统收集了自2021年11月9日至2022年7月13日期间全球范围内超过五万条与在线学习相关的推文。该数据集严格遵循推特内容再分发政策与FAIR科学数据管理原则，为大数据、数据挖掘与自然语言处理等领域提供了宝贵的研究资源，推动了针对奥密克戎浪潮期间公众对在线学习态度与反馈的深入分析。

当前挑战

该数据集面临的核心挑战涵盖领域问题与构建过程两个层面。在领域问题方面，现有研究多局限于特定地理区域的问卷调查，缺乏全球尺度下对在线学习公众舆论的系统性捕捉，难以揭示跨文化、跨教育体系的普遍规律。在构建过程中，数据采集面临多重技术难题：首先，推特API的搜索功能无法返回指定日期范围内的全部推文，导致数据存在遗漏风险；其次，大量用户在同一推文中使用多个相关标签造成重复记录，需经繁琐的去重处理；此外，数据需严格遵循推特隐私政策，仅能发布推文ID，研究者必须借助水化工具方能获取完整信息，增加了数据复用的技术门槛。

常用场景

经典使用场景

在奥密克戎变异株引发全球新一轮疫情浪潮的背景下，该数据集为研究者提供了大规模、跨地域的推文语料，专门用于分析公众对在线学习的态度与反馈。通过挖掘来自38种语言、近1.8万用户发布的5万余条推文，研究者能够追踪在线学习相关讨论的时空演化轨迹，揭示不同文化背景下教育模式转型的社会心理动态。这一数据集尤其适合开展情感分析、主题建模与意见挖掘等经典任务，为理解突发公共卫生事件中教育形态的适应性变化提供数据基石。

解决学术问题

该数据集有效填补了此前研究的两大空白：其一，以往关于新冠疫情下在线学习的研究多依赖小范围问卷调查，局限于特定国家或地区，缺乏全球性视角；其二，已有的推特数据集虽涉及疫情话题，但并未聚焦于奥密克戎浪潮中的在线教育讨论。本数据集通过整合全球推文，使研究者得以突破地域限制，大规模分析远程教育在危机中的接受度、情绪波动与争议焦点，从而推动计算社会科学、教育政策分析与流行病学交叉领域的前沿探索。

实际应用

在实际应用中，该数据集可被教育决策部门、公共卫生机构及社交媒体平台用于实时监测公众对在线教学的满意度与担忧点。例如，教育管理者可通过分析推文中的高频关键词与情感倾向，动态调整远程教学策略；公共卫生专家可借助话题演变趋势，评估学校关闭与复课政策的社会反响。此外，该数据集还能为自然语言处理系统提供训练素材，用于开发自动识别教育相关舆情、检测虚假信息或预测用户行为的智能工具，直接服务于智慧教育与社会治理。

数据集最近研究