SemEvalWorkshop/sem_eval_2018_task_1

Name: SemEvalWorkshop/sem_eval_2018_task_1
Creator: SemEvalWorkshop
Published: 2024-01-18 11:15:39
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/SemEvalWorkshop/sem_eval_2018_task_1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是SemEval-2018 Task 1: Affect in Tweets的一部分，主要用于情感分析任务。数据集包含英语、阿拉伯语和西班牙语的推文，涵盖了多种情感和情感强度的分类任务。数据集的结构包括ID、推文内容以及11种情感标签（如愤怒、期待、厌恶等）。数据集的创建过程涉及从Twitter用户收集推文，并通过众包平台Figure Eight进行情感标注。

This dataset is part of SemEval-2018 Task 1: Affect in Tweets, and is primarily intended for sentiment analysis tasks. It comprises tweets in English, Arabic and Spanish, supporting classification tasks related to various emotions and their respective intensity levels. The dataset structure includes ID, tweet content, and 11 emotional labels such as anger, anticipation, disgust and others. The dataset was developed by collecting tweets from Twitter users and conducting emotional annotation via the crowdsourcing platform Figure Eight.

提供机构：

SemEvalWorkshop

原始信息汇总

数据集概述

数据集摘要

数据集名为“SemEval-2018 Task 1: Affect in Tweets”，包含多个任务，用于自动确定推文中情绪的强度和情感分类。具体任务包括：

EI-reg：情绪强度回归任务。
EI-oc：情绪强度有序分类任务。
V-reg：情感强度回归任务。
V-oc：情感有序分类任务。
E-c：情感分类任务。

目前仅提供了子任务5（E-c）的数据。

支持的任务和语言

任务类别：文本分类
任务ID：多标签分类
语言：阿拉伯语、英语、西班牙语

数据集结构

数据实例

以下是subtask5.english配置的一个示例： json { "ID": "2017-En-21441", "Tweet": "“Worry is a down payment on a problem you may never have. xa0Joyce Meyer. #motivation #leadership #worry", "anger": false, "anticipation": true, "disgust": false, "fear": false, "joy": false, "love": false, "optimism": true, "pessimism": false, "sadness": false, "surprise": false, "trust": true }

数据字段

对于子任务5的任何配置：

ID：推文的字符串ID。
Tweet：推文的文本内容。
anger：布尔值，表示是否包含愤怒情绪。
anticipation：布尔值，表示是否包含期待情绪。
disgust：布尔值，表示是否包含厌恶情绪。
fear：布尔值，表示是否包含恐惧情绪。
joy：布尔值，表示是否包含喜悦情绪。
love：布尔值，表示是否包含爱情绪。
optimism：布尔值，表示是否包含乐观情绪。
pessimism：布尔值，表示是否包含悲观情绪。
sadness：布尔值，表示是否包含悲伤情绪。
surprise：布尔值，表示是否包含惊讶情绪。
trust：布尔值，表示是否包含信任情绪。

数据分割

	train	validation	test
English	6,838	886	3,259
Arabic	2,278	585	1,518
Spanish	3,561	679	2,854

数据集创建

数据来源

数据来源于Twitter用户发布的推文。

标注过程

标注者被要求选择最能描述推文发布者情感状态的选项，包括愤怒、期待、厌恶、恐惧、喜悦、爱、乐观、悲观、悲伤、惊讶和信任等情绪。每个推文由七个人进行标注。

标注者

标注者为Figure Eight平台上的众包工作者。

搜集汇总

数据集介绍

构建方式

SemEval-2018 Task 1: Affect in Tweets 数据集由来自社交媒体平台Twitter的用户发布的推文组成，旨在用于情感分析。该数据集通过众包方式进行标注，标注者被要求为每条推文选择最能代表推文作者情绪状态的选项。数据集包含了多种情绪状态，如愤怒、期待、厌恶、恐惧、喜悦、爱、乐观、悲观、悲伤、惊讶和信任，以及一个中性或无情绪的选项。数据集被划分为训练集、验证集和测试集，分别包含了不同数量的推文。

特点

该数据集的特点在于其多语言性，包含了英语、阿拉伯语和西班牙语三种语言的推文，使得研究人员可以研究不同语言背景下的情感分析。此外，数据集还包含了多种情绪状态，可以用于研究不同情绪的强度和分类。数据集的标注质量较高，每个推文都经过了多位标注者的标注，从而确保了标注的准确性和可靠性。

使用方法

要使用该数据集，首先需要从Hugging Face Dataset Hub下载相应语言的配置文件。下载完成后，可以使用Python等编程语言对数据进行加载和处理。数据集包含了推文的ID、文本内容以及对应的情绪状态标签。研究人员可以根据自己的需求选择相应的情绪状态进行分析，例如可以使用机器学习算法对推文进行情绪分类或情感强度回归。此外，数据集还包含了训练集、验证集和测试集，可以用于模型的训练和评估。

背景与挑战

背景概述

情感分析是自然语言处理中的一个重要研究领域，旨在理解文本中的情感和情绪。SemEval-2018 Task 1: Affect in Tweets 数据集是在这一背景下创建的，旨在推动对推文中情感的分析和理解。该数据集由Saif M. Mohammad、Felipe Bravo-Marquez、Mohammad Salameh和Svetlana Kiritchenko等研究人员于2018年创建，并作为SemEval-2018研讨会的一部分。该数据集的核心研究问题是通过推文内容自动识别和分类情感。自创建以来，该数据集对情感分析领域产生了显著影响，为研究人员和开发人员提供了宝贵的资源。

当前挑战

SemEval-2018 Task 1: Affect in Tweets 数据集面临着多个挑战。首先，推文的情感分析是一个复杂的任务，因为情感可能不是直接表达的，而是隐含在文本中的。其次，构建多语言数据集需要克服语言和文化差异带来的挑战。此外，数据集的标注过程依赖于众包工作者，这可能导致标注的一致性和准确性问题。最后，数据集可能存在偏见，因为推文内容可能受到特定社会群体或事件的影响。这些挑战需要研究人员在分析数据时加以考虑，并采取相应的措施来解决。

常用场景

经典使用场景

在社交媒体情感分析领域，SemEval-2018 Task 1: Affect in Tweets数据集被广泛用于训练和评估情感分类模型。该数据集包含了英语、阿拉伯语和西班牙语的三种语言推文，并标注了多种情感状态，如愤怒、期待、厌恶、恐惧、喜悦、爱、乐观、悲观、悲伤、惊喜和信任。其经典使用场景包括情感强度回归、情感强度序数分类、情感分类等任务，旨在从推文中自动识别和量化用户的情感状态。这些任务不仅能够帮助研究者深入理解社交媒体中的情感表达，还能够为情感分析相关的自然语言处理模型提供高质量的训练数据。

衍生相关工作

基于SemEval-2018 Task 1: Affect in Tweets数据集，研究者们开展了一系列相关工作。例如，一些研究致力于开发更先进的情感分析模型，以处理更复杂的情感表达和情感组合。此外，还有一些研究关注于情感分析在社交媒体监控、心理健康评估等领域的应用。这些研究不仅推动了情感分析技术的发展，还为相关领域的研究提供了重要的数据支持和参考价值。

数据集最近研究