covidtwitterdataset

github2021-04-12 更新2024-05-31 收录

下载链接：

https://github.com/Vivek0712/covidtwitterdataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集收集了印度新冠疫情期间与特定问题相关的推文，通过分析Google趋势中的热门关键词，选取了15个关键词进行推文收集。数据集涵盖了印度六个主要城市的推文，时间范围为2020年2月1日至7月31日。

This dataset compiles tweets related to specific issues during the COVID-19 pandemic in India. By analyzing popular keywords from Google Trends, 15 keywords were selected for tweet collection. The dataset encompasses tweets from six major cities in India, covering the period from February 1, 2020, to July 31, 2020.

创建时间：

2020-09-07

原始信息汇总

covidtwitterdataset 概述

数据收集

关键词

数据集通过分析 Google Trends 上的热门关键词来收集与印度 Covid-19 封锁期间相关的问题。
选定的关键词包括：corona, virus, coronavirus, covid19, social, job, loss, jobloss, migrant, treatment, hospital, health, mask, lockdown, curfew。

地理位置

为了反映全国的情绪，数据集收集了来自印度六个主要城市的推文，包括德里、孟买、加尔各答、金奈、班加罗尔和海得拉巴。
每个城市的收集范围设定为100公里。

时间范围

推文收集的时间跨度为2020年2月1日至2020年7月31日。

数据预处理

数据预处理步骤包括：
- 小写转换
- 标点符号移除
- 停用词移除
- 频繁词移除
- 罕见词移除
- 词干提取
- 词形还原
- 表情符号转换为文字
- 网址移除
- HTML标签移除
- 聊天词汇转换
- 拼写校正
- 从标签中移除 #
- 添加标签到推文

搜集汇总

数据集介绍

构建方式

covidtwitterdataset的构建始于对印度新冠疫情期间社交媒体数据的系统性收集。研究团队通过分析Google Trends的热门关键词，筛选出与疫情相关的15个关键词，如‘corona’、‘lockdown’等，作为数据采集的核心词汇。为确保数据的广泛代表性，研究团队从印度六个主要城市（包括德里、孟买等）的地理标记推文中进行采集，每个城市的采集半径设定为100公里。数据的时间范围覆盖了2020年2月1日至7月31日，以捕捉疫情初期的社会动态。

特点

该数据集的特点在于其高度的地域性和时效性。通过聚焦印度六大城市的推文，数据集不仅反映了疫情期间的社会情绪，还揭示了南北印度在应对疫情时的差异。此外，数据集经过多层次的预处理，包括文本清洗、情感符号转换、拼写校正等，确保了数据的质量和一致性。这些特征使得covidtwitterdataset成为研究疫情对社会影响的重要资源。

使用方法

covidtwitterdataset的使用方法主要围绕文本分析和情感挖掘展开。研究人员可以通过该数据集进行关键词频率分析、情感极性检测以及地域性情感差异研究。数据集的预处理步骤已经完成，用户可以直接加载数据并应用自然语言处理技术进行进一步分析。此外，数据集的地理标记信息为研究疫情对特定地区的影响提供了独特视角，适合用于社会学、公共卫生等领域的研究。

背景与挑战

背景概述

covidtwitterdataset数据集创建于2020年，旨在捕捉印度在新冠疫情期间的社会情绪与公众讨论。该数据集由研究人员基于Google Trends分析，选取了15个与疫情相关的关键词，如'corona'、'lockdown'等，并通过地理标签从印度六大主要城市（德里、孟买、加尔各答、金奈、班加罗尔和海得拉巴）收集了2020年2月1日至7月31日期间的推文。这些城市覆盖了印度南北两大区域，确保了数据的广泛代表性。该数据集为研究疫情期间的社会动态、公众情绪以及政策影响提供了宝贵资源，对社会科学、公共卫生等领域具有重要参考价值。

当前挑战

covidtwitterdataset在构建过程中面临多重挑战。首先，推文数据的多样性与噪声问题显著，需通过复杂的预处理步骤（如去除标点、停用词、URL等）来提升数据质量。其次，地理标签的局限性可能导致数据覆盖不均衡，尤其是在农村地区或偏远城市。此外，推文内容的实时性与动态变化增加了数据收集与分析的难度，尤其是在疫情快速发展的背景下。最后，情感分析与主题提取的准确性依赖于高质量的文本处理技术，这对算法的鲁棒性提出了更高要求。这些挑战共同构成了该数据集在应用与研究中的主要障碍。

常用场景

经典使用场景

covidtwitterdataset数据集主要用于分析COVID-19疫情期间印度社交媒体上的公众情绪和行为模式。通过收集和分析推特数据，研究者能够深入理解疫情对人们生活的影响，特别是在封锁期间的社会和经济问题。

衍生相关工作

基于covidtwitterdataset，研究者们开发了多种情绪分析和主题模型，这些模型不仅用于学术研究，还被应用于商业智能和社交媒体监控工具中，进一步推动了数据科学在公共卫生领域的应用。

数据集最近研究