Indonesian-Twitter-Emotion-Dataset

github2024-05-12 更新2024-05-31 收录

下载链接：

https://github.com/meisaputri21/Indonesian-Twitter-Emotion-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含4,403条印尼推特，标记为五种情感类别：爱、愤怒、悲伤、喜悦和恐惧。每条推文及其对应的情感标签通过分号分隔，数据已进行预处理，如替换用户名、URL和敏感数字。

This dataset comprises 4,403 Indonesian tweets, categorized into five emotional classes: love, anger, sadness, joy, and fear. Each tweet and its corresponding emotional label are separated by a semicolon. The data has been preprocessed, including the replacement of usernames, URLs, and sensitive numbers.

创建时间：

2018-09-21

原始信息汇总

Indonesian-Twitter-Emotion-Dataset 概述

数据集描述

数据量: 包含4,403条印尼语推文。
情感分类: 分为五种情感类别：爱、愤怒、悲伤、喜悦和恐惧。

数据格式

结构: 每条推文与其对应的情感标签通过分号(;)分隔，首行为标题行。若推文文本中包含逗号(,)，则使用引号(" ")以避免列分隔。
预处理:
1. 用户提及(@)替换为*[USERNAME]*。
2. URL/超链接替换为*[URL]*。
3. 敏感数字替换为*[SENSITIVE-NO]*。

预训练词嵌入

资源: 提供了基于100万条印尼语推文的Word2Vec和FastText向量，可从此处下载。

引用信息

出版物: Mei Silviana Saputri, Rahmad Mahendra, and Mirna Adriani, "Emotion Classification on Indonesian Twitter Dataset", in Proceeding of International Conference on Asian Language Processing 2018. 2018.

许可证

类型: 知识共享署名-非商业性使用-相同方式共享4.0国际许可协议。

搜集汇总

数据集介绍

构建方式

该数据集通过收集和标注4,403条印度尼西亚语的推文构建而成，这些推文被分类为五种情感类别：爱、愤怒、悲伤、喜悦和恐惧。在数据预处理阶段，用户名提及、URL链接以及敏感数字等特定内容被标准化替换，以确保数据的一致性和可用性。

特点

该数据集的显著特点在于其情感类别的多样性和数据预处理的标准化。推文中的用户名、URL和敏感数字被统一替换为特定标记，这不仅简化了数据处理流程，还提高了模型的泛化能力。此外，数据集还提供了预训练的Word2Vec和FastText词向量，进一步增强了其在情感分析任务中的应用潜力。

使用方法

使用该数据集时，用户可以直接加载标注好的推文及其对应的情感标签，进行情感分类模型的训练与评估。数据集的预处理格式确保了推文内容的清晰性和一致性，便于直接应用于各种自然语言处理任务。同时，用户可以利用提供的预训练词向量，加速模型训练过程并提升分类性能。

背景与挑战

背景概述

情感分析作为自然语言处理领域的一个重要分支，近年来在社交媒体文本的情感识别中展现出巨大的应用潜力。Indonesian-Twitter-Emotion-Dataset由Mei Silviana Saputri、Rahmad Mahendra和Mirna Adriani于2018年创建，旨在为印度尼西亚语的情感分类提供一个标准化的数据集。该数据集包含了4,403条经过预处理的印度尼西亚语推文，并被标注为五种情感类别：爱、愤怒、悲伤、喜悦和恐惧。这一数据集的发布不仅为印度尼西亚语情感分析研究提供了宝贵的资源，还为跨文化情感分析领域的研究者提供了新的视角，推动了多语言情感识别技术的发展。

当前挑战

尽管Indonesian-Twitter-Emotion-Dataset为印度尼西亚语情感分类提供了丰富的数据资源，但其构建和应用过程中仍面临诸多挑战。首先，社交媒体文本的非正式性和多样性使得数据预处理变得复杂，如用户名、URL和敏感数字的替换处理。其次，情感标签的定义和标注标准在不同文化和语言背景下可能存在差异，这增加了情感分类任务的难度。此外，如何有效利用预训练的词嵌入模型（如Word2Vec和FastText）来提升情感分类的准确性，也是研究者需要解决的技术难题。这些挑战不仅影响了数据集的构建质量，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

在情感分析领域，Indonesian-Twitter-Emotion-Dataset 数据集因其丰富的情感标签和多样化的文本内容，成为研究印尼语社交媒体情感分类的经典资源。该数据集包含4,403条印尼语推文，每条推文被标注为五种情感类别之一：爱、愤怒、悲伤、喜悦和恐惧。研究者常利用此数据集训练和评估情感分类模型，尤其是在处理印尼语社交媒体文本时，该数据集提供了宝贵的基准。

衍生相关工作

基于 Indonesian-Twitter-Emotion-Dataset 数据集，研究者们开展了多项相关工作，包括但不限于改进情感分类算法、开发跨语言情感分析模型以及探索情感与文本特征之间的关系。这些研究不仅提升了情感分析的准确性和效率，还为其他语言的情感分类研究提供了借鉴。此外，该数据集的预训练词向量模型也被广泛应用于自然语言处理任务中，进一步推动了印尼语文本处理技术的发展。

数据集最近研究