GIL-UNAM/TwitterHappiness
收藏Hugging Face2023-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/GIL-UNAM/TwitterHappiness
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含10048条带有#felicidad标签的推文,这些推文被3位志愿者根据表达的情感进行分类,包括快乐、广告、祝贺、建议和非快乐或讽刺等类别。未达成一致的推文被归类为No Agreement (NA)。数据集经过预处理,包括分词、去除标点符号和超链接,以及词干提取。
该数据集包含10048条带有#felicidad标签的推文,这些推文被3位志愿者根据表达的情感进行分类,包括快乐、广告、祝贺、建议和非快乐或讽刺等类别。未达成一致的推文被归类为No Agreement (NA)。数据集经过预处理,包括分词、去除标点符号和超链接,以及词干提取。
提供机构:
GIL-UNAM
原始信息汇总
数据集概述
数据集名称
Análisis de tweets de felicidad
数据集描述
该数据集包含10048条从Twitter上通过搜索标签#felicidad收集的推文。这些推文被分配给3名志愿者进行标注,根据推文内容分为以下类别:
- alegría (A)
- publicidad (P)
- felicitaciones (F)
- consejos (C)
- no alegría o sarcasmos (N)
标注完成后,对数据进行了过滤,将多于一个标签一致的推文归类,而不一致的推文则归入**No Agreement (NA)**类别。
数据预处理
数据预处理包括:
- 分词
- 去除标点符号和超链接
- 词根提取
分析内容
- 计算每类词汇的频率及相对频率,结果记录在Frecuencias Relativas文件中。
- 应用机器学习模型进行分析,包括Naive Bayes (NB), Logistic Regression (LR), Random Forest (RF), Support Vector Machine (SVM),并在不同层级上评估准确率和得分。
主要使用的软件包
详细信息可在Pre-requisitos文件中找到。
搜集汇总
数据集介绍

构建方式
在社交媒体情感分析领域,TwitterHappiness数据集的构建体现了严谨的学术流程。该数据集通过采集包含#felicidad标签的10,048条推文作为原始语料,随后邀请三位志愿者依据既定准则进行独立标注,将推文划分为表达喜悦、广告、祝贺、建议、非喜悦或讽刺五种类别。为确保标注质量,研究团队实施了共识过滤机制,仅保留至少两位标注者一致的条目,并将无法达成一致的样本归入第六类“未达成一致”。最终,语料经过系统的预处理,包括分词、去除标点符号与超链接以及词干提取,从而形成结构清晰、可供机器学习模型直接使用的标注数据集。
特点
TwitterHappiness数据集在情感计算研究中展现出鲜明的特色。其核心价值在于提供了针对西班牙语“幸福”相关表达的细粒度情感分类,不仅涵盖基础的正向情感,还区分了广告、祝贺、建议等具体语境,并特别纳入了非喜悦或讽刺类别,这有助于模型捕捉情感表达的复杂性与多样性。数据集附带了完整的预处理代码与相对词频分析工具,支持研究者深入探索词汇分布与情感类别间的关联。此外,项目公开了多种经典机器学习模型的应用范例与分层交叉验证结果,为后续研究提供了可复现的基准与比较框架。
使用方法
该数据集为西班牙语自然语言处理任务提供了直接的应用入口。研究者可首先利用提供的预处理脚本对原始推文进行清洗与标准化,获得结构化的文本特征。随后,数据集适用于训练有监督的情感分类模型,项目已示范了朴素贝叶斯、逻辑回归、随机森林及支持向量机等算法的实现流程与评估方法。用户可借鉴其分层抽样策略构建训练集与测试集,以评估模型在各类别上的性能。此外,附带的词频分析代码可用于开展词汇语义与情感关联的探索性研究,从而深化对社交媒体中幸福表达模式的语言学理解。
背景与挑战
背景概述
在社交媒体情感分析领域,TwitterHappiness数据集由墨西哥国立自治大学(UNAM)的研究团队于近年构建,旨在探索西班牙语推文中幸福情感表达的多样性。该数据集聚焦于#felicidad标签下的10048条推文,由Gemma Bel-Enguix、Helena Gómez Adorno等学者主导,通过人工标注将文本划分为喜悦、广告、祝贺、建议及非喜悦或讽刺五大类别,并引入“无共识”类别以处理标注分歧。其核心研究问题在于解析幸福情感在自然语言中的复杂表征,为西班牙语情感计算提供了珍贵的标注资源,推动了跨文化情感分析模型的发展。
当前挑战
TwitterHappiness数据集所解决的情感分类问题面临多重挑战:幸福情感本身具有主观性和文化依赖性,推文中的讽刺、隐含表达及多义性增加了自动识别的难度;同时,广告与祝贺类文本与情感内容的边界模糊,易导致模型误判。在构建过程中,标注一致性成为关键障碍,三名志愿者对同一推文的判断差异催生了“无共识”类别,凸显了主观标注的固有局限;此外,西班牙语的语言特性如词形变化和口语化表达,使得预处理中的词干提取与噪声过滤需精细设计,以平衡数据纯净度与语义完整性。
常用场景
经典使用场景
在情感计算与自然语言处理领域,TwitterHappiness数据集为研究者提供了探索社交媒体中幸福表达模式的宝贵资源。该数据集通过标注推特文本中的情感类别,如喜悦、广告、祝贺等,成为训练和评估情感分类模型的经典基准。其多标签标注机制与预处理流程,使得该数据集在分析西班牙语社交媒体内容的情感倾向时,展现出高度的实用性与代表性。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,包括基于Naive Bayes、Logistic Regression等传统机器学习算法的情感分类器比较研究。这些工作不仅验证了数据集在模型评估中的可靠性,还进一步探索了深度学习模型如BERT在西班牙语情感分析中的迁移学习应用。相关成果促进了跨语言情感分析技术的发展,并为后续研究提供了重要的方法论参考。
数据集最近研究
最新研究方向
在情感计算与自然语言处理领域,TwitterHappiness数据集以其对西班牙语社交媒体中幸福表达的细粒度标注,为情感分析研究提供了独特视角。当前前沿研究聚焦于利用该数据集探索多标签分类模型在跨文化情感识别中的性能,特别是结合深度学习技术如Transformer架构,以提升对广告、祝贺、建议及讽刺等复杂语义的区分能力。相关热点事件包括社交媒体情感分析在公共健康监测与品牌营销中的应用,该数据集通过提供真实场景下的标注数据,支持了情感计算模型在西班牙语环境中的可解释性与泛化性研究,对推动跨语言情感分析技术的发展具有重要实践意义。
以上内容由遇见数据集搜集并总结生成



