five

manojkumarvohra/replicated_emotions

收藏
Hugging Face2024-01-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/manojkumarvohra/replicated_emotions
下载链接
链接失效反馈
官方服务:
资源简介:
Emotion数据集是一个包含六种基本情绪(愤怒、恐惧、喜悦、爱、悲伤和惊讶)的英文Twitter消息数据集。该数据集是dair-ai/emotion数据集的处理版本,为了平衡各类情绪的样本数量,对少数类样本进行了复制。数据集包含训练集、验证集和测试集,分别有28584、2000和2000个样本。

Emotion数据集是一个包含六种基本情绪(愤怒、恐惧、喜悦、爱、悲伤和惊讶)的英文Twitter消息数据集。该数据集是dair-ai/emotion数据集的处理版本,为了平衡各类情绪的样本数量,对少数类样本进行了复制。数据集包含训练集、验证集和测试集,分别有28584、2000和2000个样本。
提供机构:
manojkumarvohra
原始信息汇总

数据集概述

数据集简介

Emotion 数据集包含六种基本情绪的英文 Twitter 消息:愤怒、恐惧、喜悦、爱、悲伤和惊喜。该数据集是 "dair-ai/emotion" 数据集的处理版本,通过复制/重复少数类别的样本来确保所有情绪类别具有近似相等的样本数量。

数据集结构

特征

  • text: 字符串类型,表示推文内容。
  • labels: 类别标签,包含以下类别:
    • 0: 悲伤
    • 1: 喜悦
    • 2: 爱
    • 3: 愤怒
    • 4: 恐惧
    • 5: 惊喜

数据分割

  • train: 训练集,包含 28584 个样本,大小为 3160217 字节。
  • validation: 验证集,包含 2000 个样本,大小为 214695 字节。
  • test: 测试集,包含 2000 个样本,大小为 217173 字节。

数据集大小

  • download_size: 1294212 字节
  • dataset_size: 3592085 字节

配置

  • config_name: default
    • data_files:
      • train: data/train-*
      • validation: data/validation-*
      • test: data/test-*
搜集汇总
数据集介绍
main_image_url
构建方式
在情感计算研究领域,数据分布不均衡常影响模型性能。本数据集基于原始情感分类数据集dair-ai/emotion,针对其中少数类别样本不足的问题,通过样本复制的技术手段对少数情感类别进行数据增强。具体而言,对六种基本情感类别中的样本量较低者进行重复采样,使所有类别在训练集中的样本数量达到近似均衡状态,最终构建出包含28584条训练样本、2000条验证样本和2000条测试样本的平衡化数据集。
特点
本数据集聚焦于英文推特文本中的六种基本情感分类,涵盖悲伤、喜悦、爱、愤怒、恐惧和惊讶等维度。其核心特征在于通过类别平衡处理,显著缓解了原始数据中各类别样本量差异较大的问题,为模型训练提供了更为均衡的数据基础。数据集保留了文本与标签对应的结构,标签以整型索引映射情感类别,便于直接应用于分类任务。数据划分清晰,包含标准的训练、验证与测试集,支持模型开发与评估的全流程。
使用方法
该数据集适用于文本情感分类模型的训练与评估。研究者可直接通过HuggingFace数据集库加载,使用默认配置即可获取已划分的训练、验证与测试集。在模型训练过程中,建议关注平衡化处理可能带来的过拟合风险,可通过交叉验证或正则化技术进行缓解。数据集中的文本字段可直接输入文本模型,标签字段则对应情感类别索引,方便与常见分类损失函数结合使用。
背景与挑战
背景概述
在自然语言处理领域,情感分析作为理解人类主观表达的核心任务,长期以来依赖于高质量标注数据推动模型进步。manojkumarvohra/replicated_emotions数据集源于对原始dair-ai/emotion数据集的优化重构,由研究人员Manoj Kumar Vohra于近年创建,旨在解决文本情感分类中六类基本情绪——愤怒、恐惧、喜悦、爱、悲伤和惊讶的识别问题。该数据集通过Twitter平台采集英语短文本,反映了社交媒体时代情感表达的多样性与复杂性,为细粒度情感计算模型提供了关键训练资源,显著促进了情绪识别技术在舆情分析、心理健康辅助等跨学科应用中的发展。
当前挑战
该数据集致力于应对细粒度情感分类中类别不平衡的经典难题,原始数据中少数情绪类别样本匮乏易导致模型预测偏差,而通过样本复制的平衡化处理虽缓解了分布不均,却可能引入过拟合风险,削弱模型对真实场景中非均衡数据的泛化能力。在构建过程中,挑战集中于Twitter文本的噪声过滤与情绪标注的一致性维护,短文本的语境缺失与隐喻表达增加了标注歧义,同时样本复制策略需在保持语言多样性与避免信息冗余间取得平衡,这些因素共同考验着数据集的代表性与实用性。
常用场景
经典使用场景
在情感计算领域,文本情感分析作为核心任务之一,常面临类别不平衡的挑战。该数据集通过复制少数类样本,实现了六种基本情感类别的均衡分布,为情感分类模型的训练提供了理想的数据基础。研究者可借此构建稳健的分类器,精准识别社交媒体文本中的愤怒、恐惧、喜悦、爱、悲伤和惊讶等情绪,推动情感理解技术的深入发展。
解决学术问题
该数据集有效缓解了情感分类中因样本分布不均导致的模型偏见问题,为学术研究提供了标准化的评估基准。它支持跨领域的情感迁移学习,促进了细粒度情感分析方法的创新,如多标签分类与情感强度建模。通过均衡数据,研究者能够更准确地探索情感表达的复杂模式,提升模型在真实场景中的泛化能力与公平性。
衍生相关工作
围绕该数据集,已衍生出多项经典研究,包括基于深度学习的多情感分类架构优化,如注意力机制与Transformer模型的集成应用。同时,它促进了数据增强技术的探索,例如对抗生成与少样本学习,以进一步提升模型鲁棒性。这些工作不仅深化了情感计算的理论框架,也为后续跨语言情感数据集的构建提供了方法论借鉴。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作