Mpox Narrative on Instagram
收藏arXiv2024-09-09 更新2024-09-11 收录
下载链接:
https://dx.doi.org/10.21227/7fvc-y093
下载链接
链接失效反馈官方服务:
资源简介:
Mpox Narrative on Instagram数据集由南达科他矿业与技术学院创建,包含60,127条关于猴痘(mpox)的Instagram帖子,涵盖52种语言。数据集内容包括帖子ID、描述、发布日期、语言及其英文翻译。数据集的创建过程包括使用Google Translate API进行翻译,并进行情感分析、仇恨言论检测和焦虑检测。该数据集主要用于训练和测试机器学习算法,以进行情感、仇恨言论和焦虑检测,旨在解决公共卫生危机中的信息传播和情感分析问题。
The Mpox Narrative on Instagram Dataset was developed by the South Dakota School of Mines and Technology. It contains 60,127 Instagram posts related to mpox, covering 52 languages. The dataset includes post IDs, post descriptions, publication dates, original languages, and their English translations. The construction of this dataset utilized the Google Translate API for translation, and additionally conducted sentiment analysis, hate speech detection, and anxiety detection. This dataset is mainly used to train and test machine learning algorithms for sentiment, hate speech, and anxiety detection, with the goal of addressing challenges in information dissemination and sentiment analysis during public health crises.
提供机构:
南达科他矿业与技术学院
创建时间:
2024-09-09
搜集汇总
数据集介绍

构建方式
该数据集通过挖掘Instagram平台上带有“monkeypox”或“mpox”标签的帖子构建而成,涵盖了从2022年7月23日至2024年9月5日期间发布的60,127条关于猴痘的帖子。数据集采用Python 3.11编程语言,利用Instagram API的标签搜索功能进行数据挖掘。对于非英文帖子,使用Google Translate API进行翻译,以便进行情感分析、仇恨言论检测和焦虑或压力检测。数据预处理包括去除特殊字符、用户提及、标签、标点符号、英语单词、停用词和数字。最后,使用DistilRoBERTa模型进行情感分析,unitary/toxic-bert模型进行仇恨言论检测,以及DistilRoBERTa模型进行焦虑或压力检测。
特点
Mpox Narrative on Instagram数据集是一个多语言数据集,包含了52种不同语言的帖子。数据集的每个帖子都有唯一的ID、原始描述、发布日期、语言和英文翻译版本。此外,数据集还包含了情感分析、仇恨言论检测和焦虑或压力检测的结果。该数据集符合FAIR原则,易于查找、访问、互操作和重用。
使用方法
使用Mpox Narrative on Instagram数据集,研究人员可以进行情感分析、仇恨言论检测和焦虑或压力检测。数据集的每个帖子都被分类为情感类别(恐惧、惊讶、喜悦、悲伤、愤怒、厌恶或中性)、仇恨言论(是或否)和焦虑或压力(检测到或未检测到)。这些结果可以作为训练和测试机器学习算法的属性,以便进行情感、仇恨言论和焦虑或压力检测。此外,数据集还可以用于其他应用,如公共卫生研究、流行病学研究和社会媒体分析。
背景与挑战
背景概述
Mpox Narrative on Instagram数据集的创建旨在填补关于Mpox爆发在Instagram上的社交媒体数据集的空白。该数据集包含了自2022年7月23日至2024年9月5日发布的60,127条Instagram帖子,这些帖子涉及Mpox并以52种语言呈现。该数据集的创建由多学科研究人员完成,旨在分析社交媒体平台在病毒爆发期间的信息传播和公众反应。该数据集对于理解Mpox爆发的多模态特征、制定预防策略和公共卫政策略具有重要意义。
当前挑战
Mpox Narrative on Instagram数据集面临的主要挑战包括:1) 多语言数据的处理和分析;2) 情感分析、仇恨言论检测和焦虑或压力检测模型的准确性和可靠性;3) 数据集的更新和维护。此外,数据集的创建过程中也遇到了技术挑战,例如Instagram API的使用限制、Google Translate API的翻译准确性和数据预处理等。
常用场景
经典使用场景
Mpox Narrative on Instagram 数据集的经典使用场景在于情感分析、仇恨言论检测和焦虑或压力分析。通过对Instagram上关于猴痘的帖子进行情感分析,研究人员可以了解公众对于猴痘爆发的情绪反应,包括恐惧、惊讶、喜悦、悲伤、愤怒、厌恶和中立等情感类别。仇恨言论检测可以帮助识别和监测与猴痘相关的仇恨言论,以便及时采取相应的措施。焦虑或压力分析则可以帮助识别和监测公众对于猴痘爆发的焦虑或压力程度。这些分析结果可以用于制定公共卫生策略和政策,以应对猴痘爆发。此外,该数据集还可以用于训练机器学习算法,以提高情感分析、仇恨言论检测和焦虑或压力检测的准确性。
解决学术问题
Mpox Narrative on Instagram 数据集解决了当前猴痘爆发研究中的一些关键学术问题。首先,该数据集填补了Instagram上关于猴痘爆发的数据集空白,为研究人员提供了宝贵的数据资源。其次,该数据集包含了多种语言的数据,使得跨语言研究成为可能。此外,该数据集还包含了情感分析、仇恨言论检测和焦虑或压力检测的结果,为研究人员提供了额外的分析视角。最后,该数据集还遵循了FAIR原则,使得数据易于查找、访问、互操作和重用,为学术研究提供了便利。
衍生相关工作
Mpox Narrative on Instagram 数据集衍生了一些相关的研究工作。例如,研究人员可以使用该数据集来研究不同语言中关于猴痘的情绪表达和仇恨言论的差异。此外,该数据集还可以用于开发跨语言的情感分析、仇恨言论检测和焦虑或压力检测的机器学习模型。此外,该数据集还可以用于研究猴痘爆发的传播模式和影响因素。
以上内容由遇见数据集搜集并总结生成



