GIL-UNAM/TwitterHappiness

Name: GIL-UNAM/TwitterHappiness
Creator: GIL-UNAM
Published: 2023-05-17 15:53:50
License: 暂无描述

Hugging Face2023-05-17 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/GIL-UNAM/TwitterHappiness

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含10048条带有#felicidad标签的推文，这些推文被3位志愿者根据表达的情感进行分类，包括快乐、广告、祝贺、建议和非快乐或讽刺等类别。未达成一致的推文被归类为No Agreement (NA)。数据集经过预处理，包括分词、去除标点符号和超链接，以及词干提取。

提供机构：

GIL-UNAM

原始信息汇总

数据集概述

数据集名称

Análisis de tweets de felicidad

数据集描述

该数据集包含10048条从Twitter上通过搜索标签#felicidad收集的推文。这些推文被分配给3名志愿者进行标注，根据推文内容分为以下类别：

alegría (A)
publicidad (P)
felicitaciones (F)
consejos (C)
no alegría o sarcasmos (N)

标注完成后，对数据进行了过滤，将多于一个标签一致的推文归类，而不一致的推文则归入**No Agreement (NA)**类别。

数据预处理

数据预处理包括：

分词
去除标点符号和超链接
词根提取

分析内容

计算每类词汇的频率及相对频率，结果记录在Frecuencias Relativas文件中。
应用机器学习模型进行分析，包括Naive Bayes (NB), Logistic Regression (LR), Random Forest (RF), Support Vector Machine (SVM)，并在不同层级上评估准确率和得分。

主要使用的软件包

详细信息可在Pre-requisitos文件中找到。

搜集汇总

数据集介绍

构建方式

在社交媒体情感分析领域，TwitterHappiness数据集的构建体现了严谨的学术流程。该数据集通过采集包含#felicidad标签的10,048条推文作为原始语料，随后邀请三位志愿者依据既定准则进行独立标注，将推文划分为表达喜悦、广告、祝贺、建议、非喜悦或讽刺五种类别。为确保标注质量，研究团队实施了共识过滤机制，仅保留至少两位标注者一致的条目，并将无法达成一致的样本归入第六类“未达成一致”。最终，语料经过系统的预处理，包括分词、去除标点符号与超链接以及词干提取，从而形成结构清晰、可供机器学习模型直接使用的标注数据集。

特点

TwitterHappiness数据集在情感计算研究中展现出鲜明的特色。其核心价值在于提供了针对西班牙语“幸福”相关表达的细粒度情感分类，不仅涵盖基础的正向情感，还区分了广告、祝贺、建议等具体语境，并特别纳入了非喜悦或讽刺类别，这有助于模型捕捉情感表达的复杂性与多样性。数据集附带了完整的预处理代码与相对词频分析工具，支持研究者深入探索词汇分布与情感类别间的关联。此外，项目公开了多种经典机器学习模型的应用范例与分层交叉验证结果，为后续研究提供了可复现的基准与比较框架。

使用方法

该数据集为西班牙语自然语言处理任务提供了直接的应用入口。研究者可首先利用提供的预处理脚本对原始推文进行清洗与标准化，获得结构化的文本特征。随后，数据集适用于训练有监督的情感分类模型，项目已示范了朴素贝叶斯、逻辑回归、随机森林及支持向量机等算法的实现流程与评估方法。用户可借鉴其分层抽样策略构建训练集与测试集，以评估模型在各类别上的性能。此外，附带的词频分析代码可用于开展词汇语义与情感关联的探索性研究，从而深化对社交媒体中幸福表达模式的语言学理解。

背景与挑战

背景概述

在社交媒体情感分析领域，TwitterHappiness数据集由墨西哥国立自治大学（UNAM）的研究团队于近年构建，旨在探索西班牙语推文中幸福情感表达的多样性。该数据集聚焦于#felicidad标签下的10048条推文，由Gemma Bel-Enguix、Helena Gómez Adorno等学者主导，通过人工标注将文本划分为喜悦、广告、祝贺、建议及非喜悦或讽刺五大类别，并引入“无共识”类别以处理标注分歧。其核心研究问题在于解析幸福情感在自然语言中的复杂表征，为西班牙语情感计算提供了珍贵的标注资源，推动了跨文化情感分析模型的发展。

当前挑战

TwitterHappiness数据集所解决的情感分类问题面临多重挑战：幸福情感本身具有主观性和文化依赖性，推文中的讽刺、隐含表达及多义性增加了自动识别的难度；同时，广告与祝贺类文本与情感内容的边界模糊，易导致模型误判。在构建过程中，标注一致性成为关键障碍，三名志愿者对同一推文的判断差异催生了“无共识”类别，凸显了主观标注的固有局限；此外，西班牙语的语言特性如词形变化和口语化表达，使得预处理中的词干提取与噪声过滤需精细设计，以平衡数据纯净度与语义完整性。

常用场景

经典使用场景

在情感计算与自然语言处理领域，TwitterHappiness数据集为研究者提供了探索社交媒体中幸福表达模式的宝贵资源。该数据集通过标注推特文本中的情感类别，如喜悦、广告、祝贺等，成为训练和评估情感分类模型的经典基准。其多标签标注机制与预处理流程，使得该数据集在分析西班牙语社交媒体内容的情感倾向时，展现出高度的实用性与代表性。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，包括基于Naive Bayes、Logistic Regression等传统机器学习算法的情感分类器比较研究。这些工作不仅验证了数据集在模型评估中的可靠性，还进一步探索了深度学习模型如BERT在西班牙语情感分析中的迁移学习应用。相关成果促进了跨语言情感分析技术的发展，并为后续研究提供了重要的方法论参考。

数据集最近研究