COVID-19 Instagram 多语言情感分析数据集

Name: COVID-19 Instagram 多语言情感分析数据集
Creator: 南达科他矿业与技术学院
Published: 2024-10-04 18:06:55
License: 暂无描述

arXiv2024-10-04 更新2024-10-08 收录

下载链接：

https://dx.doi.org/10.21227/d46p-v480

下载链接

链接失效反馈

官方服务：

资源简介：

COVID-19 Instagram 多语言情感分析数据集由南达科他矿业与技术学院创建，包含2020年1月至2024年9月期间发布的500,153条Instagram帖子，涵盖161种语言和535,021个不同的标签。数据集的创建过程包括通过特定标签进行数据挖掘，并使用Google Translate API进行语言检测。该数据集主要用于多语言情感分析，旨在研究COVID-19相关话题在不同语言和文化背景下的公众情感变化，以及其在公共卫生宣传和心理健康研究中的应用。

The COVID-19 Instagram Multilingual Sentiment Analysis Dataset was created by the South Dakota School of Mines and Technology. It contains 500,153 Instagram posts published between January 2020 and September 2024, covering 161 languages and 535,021 unique hashtags. The dataset was developed through data mining using specific hashtags, with language detection conducted via the Google Translate API. This dataset is primarily intended for multilingual sentiment analysis, aiming to investigate public sentiment changes regarding COVID-19-related topics across different linguistic and cultural backgrounds, as well as its applications in public health communication and mental health research.

提供机构：

南达科他矿业与技术学院

创建时间：

2024-10-04

搜集汇总

数据集介绍

构建方式

该数据集通过挖掘2020年1月至2024年9月期间发布的包含至少一个与COVID-19相关标签的Instagram帖子构建而成。数据挖掘过程中，首先回顾了相关领域的先前工作和与COVID-19相关的热门标签，形成了一个标签列表。随后，使用Google Translate API进行语言检测，并通过Python程序调用该API，为每条帖子添加语言代码和全称。数据预处理阶段，将所有帖子转换为小写，去除标签、用户提及和数字，并保留与情感表达相关的表情符号。最后，对英语帖子使用VADER进行情感分析，对非英语帖子使用twitter-xlm-roberta-base-sentiment模型进行情感分类，并将结果添加为数据集的一个属性。

特点

该数据集包含了500,153条Instagram帖子，涵盖161种不同的语言，并包含535,021个独特的标签。其显著特点在于多语言情感分析的全面性，不仅包括英语，还涵盖了多种非英语语言，如西班牙语、印地语、葡萄牙语等。此外，数据集还记录了每条帖子的发布日期、语言代码和情感分类结果，为研究COVID-19相关话题在不同语言和文化背景下的公众情感提供了丰富的资源。

使用方法

研究者可以利用该数据集进行多语言情感分析，探讨不同语言和文化背景下公众对COVID-19的情感变化。此外，数据集还可用于训练和测试情感分析模型，特别是在社交媒体文本处理领域。通过分析年度情感趋势和语言特定的情感分布，研究者可以深入了解公众在疫情不同阶段的情感动态，以及文化差异如何影响社交媒体上的讨论。数据集的开放性和标准化格式确保了其广泛的应用潜力，适用于多种研究需求和分析工具。

背景与挑战

背景概述

COVID-19 Instagram 多语言情感分析数据集由南达科他矿业与技术学院的电气工程与计算机科学系开发，涵盖了2020年1月至2024年9月期间发布的超过50万条Instagram帖子。该数据集包含161种不同语言的帖子，并附有535,021个独特的标签。其核心研究问题在于分析全球公众在Instagram上对COVID-19的情感反应，通过多语言情感分析揭示不同文化和语言背景下公众情感的差异与演变。这一数据集填补了现有研究在Instagram平台上多语言情感分析的空白，为理解全球公众在疫情中的情感动态提供了宝贵的资源。

当前挑战

该数据集面临的挑战主要包括：首先，多语言情感分析的复杂性，涉及161种语言的情感分类，需要高精度的语言检测和情感分析模型。其次，数据构建过程中的技术难题，如使用Google Translate API进行语言检测的高成本和潜在的不准确性。此外，数据集中的部分帖子可能存在与COVID-19无关的标签滥用问题，需要手动审查和清理。最后，随着时间的推移，公众对COVID-19的情感反应不断变化，未来的数据收集和分析可能需要更新模型和方法以保持准确性。

常用场景

经典使用场景

COVID-19 Instagram 多语言情感分析数据集的经典应用场景在于其能够深入挖掘和分析全球范围内Instagram平台上关于COVID-19的公众情感表达。通过该数据集，研究者可以对不同语言、不同文化背景下的用户情感进行细致分类，从而揭示疫情在全球不同地区的影响及其情感变化趋势。这种跨语言和跨文化的情感分析不仅有助于理解公众对疫情的整体态度，还能为政策制定者提供宝贵的社会心理数据支持。

实际应用

在实际应用中，COVID-19 Instagram 多语言情感分析数据集可用于监测和评估全球公众对COVID-19及其相关政策的反应。例如，政府和公共卫生机构可以利用这些数据来调整信息传播策略，以更有效地引导公众情绪和行为。此外，企业和社会组织也可以通过分析这些数据来了解消费者和公众的情绪变化，从而优化市场策略和社区服务。

衍生相关工作

基于COVID-19 Instagram 多语言情感分析数据集，已衍生出多项相关研究工作。例如，有研究利用该数据集进行跨语言情感比较，探讨不同文化背景下公众对疫情的情感反应；还有研究聚焦于特定语言群体，分析其情感变化与政策实施的关系。此外，该数据集还被用于开发和验证多语言情感分析模型，推动了自然语言处理技术在公共卫生领域的应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集