BraSNAM2018-Dataset-Analise-de-sentimentos-em-tweets-em-portugues-brasileiro

github2022-11-11 更新2024-05-31 收录

下载链接：

https://github.com/danielkansaon/BraSNAM2018-Dataset-Analise-de-sentimentos-em-tweets-em-portugues-brasileiro

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于分析巴西葡萄牙语推特中的情感，收集于2017年8月至10月，共收集了12,814条推特，经过处理后剩余11,513条。数据集中的主要表情符号已被替换为关键词，例如表情符号❤被替换为ECoracao。

This dataset is utilized for analyzing sentiments in Brazilian Portuguese tweets, collected from August to October 2017, totaling 12,814 tweets, with 11,513 remaining after processing. The primary emojis in the dataset have been replaced with keywords, for instance, the emoji ❤ has been substituted with ECoracao.

创建时间：

2018-05-18

原始信息汇总

数据集概述

数据集名称

BraSNAM2018-Dataset-Analise-de-sentimentos-em-tweets-em-portugues-brasileiro

数据集描述

本数据集用于支持论文“Análise de Sentimentos em Tweets em Português Brasileiro”，该论文在BraSNAM-2018上发表。数据集主要用于比较不同技术在分类葡萄牙语巴西语境下的推特情感表达（直接或间接）的效果。

数据集内容

数据量：原始收集的推特数量为12,814条，经过去重处理后，最终数据集包含11,513条推特。
数据处理：推特中的主要表情符号已被替换为关键词，例如表情符号❤被替换为ECoracao。
数据收集时间：2017年8月至10月。

数据获取方式

数据集通过执行提供的SQL脚本“DDL_Criacao_Tabela_Com_Todos_Dados.sql”来获取，该脚本包含了创建数据表及插入所有数据的指令。

数据存储

数据存储使用SQL Server 2012。

情感分类结果

最佳分类器准确率：85%。
相近情感分类准确率：低于70%。

搜集汇总

数据集介绍

构建方式

BraSNAM2018数据集构建于2017年8月至10月期间，通过收集巴西葡萄牙语推文，共计12,814条。在数据预处理阶段，重复推文被剔除，最终保留了11,513条推文。数据集存储于SQL Server 2012中，并通过提供的SQL脚本`DDL_Criacao_Tabela_Com_Todos_Dados.sql`进行表创建和数据插入。此外，推文中的主要表情符号被替换为关键词，例如❤被替换为ECoracao，以确保数据的一致性和可分析性。

使用方法

使用BraSNAM2018数据集时，用户需首先执行提供的SQL脚本`DDL_Criacao_Tabela_Com_Todos_Dados.sql`，以创建数据表并导入数据。数据集适用于情感分析任务，用户可通过机器学习或深度学习模型对推文进行情感分类。由于数据已进行预处理，用户可直接利用关键词化的表情符号和文本内容进行模型训练与测试。此外，数据集还可用于研究巴西葡萄牙语中情感表达的独特性及其与表情符号的关联。

背景与挑战

背景概述

BraSNAM2018数据集专注于巴西葡萄牙语推文的情感分析，由研究人员在2018年BraSNAM会议上发布。该数据集的核心研究问题在于如何有效分类巴西葡萄牙语推文中表达的直接或间接情感。数据集包含了2017年8月至10月期间收集的12,814条推文，经过预处理后保留了11,513条推文。这些推文中的表情符号被替换为关键词，以便于分析。该研究展示了情感分类技术的比较，最佳分类器的准确率达到了85%，但在区分相近情感时表现较差，准确率低于70%。这一数据集为巴西葡萄牙语的情感分析研究提供了重要的数据支持，推动了该领域的技术发展。

当前挑战

BraSNAM2018数据集在情感分析领域面临的主要挑战包括：首先，巴西葡萄牙语的复杂性和多样性使得情感分类任务更具挑战性，尤其是在区分相近情感时，准确率显著下降。其次，推文数据的非正式性和短文本特性增加了情感分析的难度，尤其是在处理间接表达情感时。在数据构建过程中，研究人员还面临了数据清洗和预处理的挑战，例如去除重复推文以及将表情符号替换为关键词，这些步骤虽然提高了数据的可用性，但也可能引入偏差或信息损失。此外，数据集的规模相对较小，可能限制了模型的泛化能力。这些挑战为未来的研究提供了改进方向，例如开发更复杂的语言模型或扩展数据集规模。

常用场景

经典使用场景

BraSNAM2018数据集在情感分析领域具有广泛的应用，尤其是在巴西葡萄牙语社交媒体文本的情感分类任务中。该数据集通过提供经过预处理的推文数据，为研究人员提供了一个标准化的基准，用于比较不同情感分类算法的性能。其经典使用场景包括但不限于情感极性分类、情感强度分析以及情感与文本特征之间的关系研究。

解决学术问题

该数据集解决了巴西葡萄牙语社交媒体文本情感分析中的关键问题，特别是针对情感表达的多样性和复杂性。通过提供高质量的标注数据，研究人员能够开发更精确的情感分类模型，从而提升对巴西葡萄牙语推文中隐含情感的识别能力。此外，该数据集还为跨语言情感分析研究提供了重要的数据支持，推动了多语言情感分析技术的发展。

实际应用

在实际应用中，BraSNAM2018数据集被广泛用于社交媒体监控、品牌声誉管理以及用户情感反馈分析等领域。例如，企业可以利用该数据集训练情感分析模型，实时监测用户对其产品或服务的评价，从而快速响应市场变化。此外，政府和公共机构也可以通过分析社交媒体中的情感趋势，了解公众对政策或事件的态度，为决策提供数据支持。

数据集最近研究