Dataset I, Dataset II, Dataset III

github2023-09-28 更新2024-05-31 收录

下载链接：

https://github.com/suzana-ilic/EDA_nlp_emotion_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

Dataset I包含2,894个Facebook帖子，标注了情感极性和唤醒度评分；Dataset II是2007年SemEval的媒体标题数据集；Dataset III是2019年SemEval的对话数据集。

数据集I汇聚了2,894篇源自Facebook的帖子，并对每篇帖子进行了情感极性和唤醒度评分的标注；数据集II收录了2007年SemEval竞赛中的媒体标题数据集；数据集III则涵盖了2019年SemEval竞赛的对话数据集。

创建时间：

2020-03-17

原始信息汇总

数据集概述

数据集详情

数据集 I

类型: Facebook 帖子
数量: 2,894 条
标注: 每条帖子标注了情绪的愉悦度和激活度，评分范围为1-9
任务: 回归分析
模型: 使用BERT和RoBERTa模型，通过Simple Transformers实现
相关论文: Modelling Valence and Arousal in Facebook posts (2016)
引用: Preoţiuc-Pietro, D., Schwartz, H. A., Park, G., Eichstaedt, J., Kern, M., Ungar, L., & Shulman, E. (2016): Modelling valence and arousal in facebook posts. In Proceedings of the 7th workshop on computational approaches to subjectivity, sentiment and social media analysis (pp. 9-15).

数据集 II

类型: 媒体头条
来源: SemEval 2007

数据集 III

类型: 对话
来源: SemEval 2019

模型演示

模型: DistilRoBERTa-base
训练数据: 6个不同数据集
预测情绪: 愤怒、厌恶、恐惧、喜悦、中性、悲伤、惊讶
演示链接: Demo
模型参考: Jochen Hartmann, "Emotion English DistilRoBERTa-base". https://huggingface.co/j-hartmann/emotion-english-distilroberta-base/, 2022.

搜集汇总

数据集介绍

构建方式

Dataset I的构建基于2,894条Facebook帖子，每条帖子均通过人工标注的方式，分别对情感的效价（valence）和唤醒度（arousal）进行了评分，评分范围为1至9的整数。该数据集的构建旨在捕捉社交媒体文本中的情感维度，采用了James A. Russell提出的环状情感模型（Circumplex Model of Affect），该模型将情感划分为效价和唤醒度两个维度，从而为情感计算研究提供了多维度的分析基础。

特点

Dataset I的特点在于其专注于社交媒体文本的情感分析，特别是Facebook帖子中的情感表达。数据集不仅提供了情感的效价和唤醒度评分，还通过多维度的情感模型，使得研究者能够深入探讨情感在文本中的复杂表现。此外，数据集的标注基于人工评分，确保了情感标注的准确性和一致性，为情感计算领域的研究提供了高质量的数据支持。

使用方法

Dataset I的使用方法主要包括情感回归任务，研究者可以利用BERT、RoBERTa等预训练模型进行情感预测。通过Simple Transformers库，用户可以轻松加载数据集并进行模型训练与评估。此外，数据集还可用于探索性数据分析（EDA），帮助研究者理解文本语料库的语言风格、词汇元素、句法结构以及情感类别的分布情况。通过这种方式，Dataset I为情感计算领域的研究者提供了一个全面的工具集，用于深入分析社交媒体文本中的情感表达。

背景与挑战

背景概述

Dataset I、Dataset II和Dataset III是情感计算领域的重要文本数据集，旨在推动基于文本的情感识别研究。这些数据集由Suzana Ilic等研究人员在2016年至2019年间创建，主要依托于Facebook帖子、媒体标题和对话文本。其中，Dataset I包含2,894条Facebook帖子，标注了情感效价（valence）和唤醒度（arousal）的分数，基于James A. Russell的情感环状模型（Circumplex Model of Affect）。这些数据集为情感计算和自然语言处理领域提供了丰富的实验数据，支持了深度学习模型在情感分类和回归任务中的广泛应用。

当前挑战

这些数据集在构建和应用中面临多重挑战。首先，情感标注的主观性导致数据一致性难以保证，不同标注者可能对同一文本的情感解读存在差异。其次，数据集的类别分布不均衡，某些情感类别（如“厌恶”或“惊讶”）的样本数量较少，可能影响模型的泛化能力。此外，文本的多语言风格和语境复杂性增加了情感识别的难度，尤其是在跨领域或跨文化场景中。最后，尽管深度学习模型在情感预测任务中表现出色，但其对大规模标注数据的依赖限制了在小规模数据集上的性能表现。

常用场景

经典使用场景

Dataset I 数据集在情感计算领域中被广泛用于分析社交媒体文本中的情感表达。通过标注Facebook帖子中的情感效价（valence）和唤醒度（arousal），研究者能够深入探讨文本情感的多维度特征。该数据集常用于训练和评估基于深度学习的自然语言处理模型，如BERT和RoBERTa，以预测文本的情感状态。

解决学术问题

Dataset I 数据集解决了情感计算中文本情感的多维度建模问题。通过提供详细的效价和唤醒度标注，研究者能够更好地理解情感在文本中的复杂表达方式。该数据集为情感分类和回归任务提供了高质量的训练数据，推动了情感计算领域的发展，尤其是在社交媒体情感分析中的应用。

衍生相关工作

基于Dataset I 数据集，研究者开发了多种经典的情感分析模型和算法。例如，Preoţiuc-Pietro等人（2016）提出了基于效价和唤醒度的情感建模方法，为后续研究提供了重要参考。此外，该数据集还被用于训练和评估多种深度学习模型，如BERT和RoBERTa，这些模型在情感分类和回归任务中取得了显著的成果。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集