souljoy/COVID-19_weibo_emotion

Name: souljoy/COVID-19_weibo_emotion
Creator: souljoy
Published: 2022-12-29 09:42:16
License: 暂无描述

Hugging Face2022-12-29 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/souljoy/COVID-19_weibo_emotion

下载链接

链接失效反馈

官方服务：

资源简介：

疫情微博数据集，该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博，其内容与新冠疫情相关。每条微博被标注为以下六个类别之一：neutral（无情绪）、happy（积极）、angry（愤怒）、sad（悲伤）、fear（恐惧）、surprise（惊奇）。疫情微博训练数据集包括8,606条微博，验证集包含2,000条微博，测试数据集包含3,000条微博。

COVID-19 Weibo Dataset: This dataset comprises COVID-19-related Weibo posts collected via relevant keywords during the COVID-19 pandemic. Each Weibo post is annotated into one of the following six categories: neutral (no emotion), happy (positive), angry, sad, fear, and surprise. The training split of the dataset includes 8,606 Weibo posts, the validation split contains 2,000 posts, and the test split has 3,000 posts.

提供机构：

souljoy

原始信息汇总

数据集概述

数据集名称

COVID-19 Epidemic Weibo Emotional Dataset

数据集内容

该数据集包含在疫情期间通过使用相关关键字筛选获得的与新冠疫情相关的微博内容。

数据集结构

训练集：包含8,606条微博。
验证集：包含2,000条微博。
测试集：包含3,000条微博。

数据标注

每条微博被标注为以下六个类别之一：

neutral（无情绪）
happy（积极）
angry（愤怒）
sad（悲伤）
fear（恐惧）
surprise（惊奇）

搜集汇总

数据集介绍

构建方式

在新冠疫情这一全球公共卫生事件背景下，该数据集通过精心设计的关键词筛选机制，从微博平台采集了与疫情相关的文本内容。构建过程聚焦于疫情期间公众发布的原创微博，利用自动化工具结合人工审核，确保数据来源的真实性与时效性。每条微博均经过严格标注，归入六种情感类别之一，形成了结构化的训练集、验证集与测试集，为情感分析研究提供了高质量的基础语料。

特点

该数据集的核心特点在于其高度聚焦于新冠疫情这一特定社会语境下的公众情感表达。它涵盖了六种细致的情感类别，包括中性、积极、愤怒、悲伤、恐惧与惊奇，能够全面捕捉疫情引发的复杂情绪光谱。数据规模适中，划分清晰，训练集、验证集与测试集的独立设置保障了模型评估的严谨性。其内容源于真实社交媒体，具有鲜明的时代印记与丰富的语言学特征，为探究危机事件中的公众心理与情感动态提供了独特窗口。

使用方法

该数据集主要应用于自然语言处理领域的情感分析任务，尤其适合训练与评估针对特定社会事件的情感分类模型。研究者可加载其预划分的训练集进行模型训练，利用验证集进行超参数调优，最终在测试集上评估模型性能。它可作为基准数据集，用于比较不同算法在细粒度情感分类上的表现。此外，该数据集也可支持社会学、传播学等跨学科研究，用于分析重大公共卫生事件期间的社会情绪演变与传播模式。

背景与挑战

背景概述

在新冠疫情全球蔓延的背景下，社交媒体平台成为公众情绪表达与信息传播的重要载体。souljoy/COVID-19_weibo_emotion数据集由相关研究团队于疫情期间构建，旨在通过分析微博文本中的情感倾向，揭示突发公共卫生事件下社会心理的动态变化。该数据集聚焦于情感计算与自然语言处理领域，核心研究问题在于精准识别与分类疫情相关文本中的多元情绪，为舆情监测、心理干预及公共卫生决策提供数据支撑，对推动危机情境下的情感分析研究具有显著影响力。

当前挑战

该数据集致力于解决疫情背景下社交媒体情感分析的挑战，包括细粒度情绪分类的复杂性，如区分恐惧、悲伤等相近负面情绪，以及应对网络语言中噪声、隐喻与语境依赖的干扰。在构建过程中，挑战主要体现在数据采集的时效性与代表性平衡，需通过关键词筛选确保内容相关性，同时人工标注面临主观偏差与类别边界模糊的问题，加之微博文本的简短性与非正式表达，进一步增加了标注一致性与模型泛化能力的难度。

常用场景

经典使用场景

在社交媒体情感分析领域，该数据集为研究者提供了疫情期间公众情绪演变的珍贵语料。通过标注六种基本情绪类别，它常被用于训练和评估情感分类模型，帮助学者深入理解重大公共卫生事件下社会心态的动态变化。

衍生相关工作

基于该数据集衍生的研究已形成多篇重要学术成果，包括结合时空特征的情绪传播图谱构建、跨平台情绪对比分析等。这些工作进一步拓展了多模态情感计算框架，为后续突发公共卫生事件的情感计算研究建立了方法论范式。

数据集最近研究