Motamot

arXiv2024-07-29 更新2024-07-31 收录

下载链接：

https://github.com/Mukaffi28/Bengali-Political-Sentiment-Analysis

下载链接

链接失效反馈

官方服务：

资源简介：

Motamot数据集由阿赫桑尼科技大学的计算机科学与工程系创建，专门用于孟加拉语的政治情感分析。该数据集包含7,058条标注了正面和负面情感的数据，来源于多个在线新闻门户，为政治情感分析提供了全面的资源。数据集的创建过程包括从多个新闻源抓取文章和意见文章，并进行细致的手动标注。该数据集主要应用于孟加拉国选举期间的公众意见分析，旨在帮助理解选民偏好和当前趋势。

The Motamot Dataset was created by the Department of Computer Science and Engineering at Ahsanullah University of Science and Technology, specifically for Bengali political sentiment analysis. It contains 7,058 labeled samples with positive and negative sentiment annotations, sourced from multiple online news portals, thus serving as a comprehensive resource for political sentiment analysis research. The dataset development process involves scraping articles and opinion pieces from various news sources, followed by meticulous manual annotation. This dataset is primarily applied to public opinion analysis during elections in Bangladesh, with the aim of helping researchers understand voter preferences and prevailing societal trends.

提供机构：

计算机科学与工程系阿赫桑尼科技大学 (AUST), 达卡, 孟加拉国

创建时间：

2024-07-29

原始信息汇总

Motamot 数据集概述

数据集介绍

Motamot 数据集是一个用于分析孟加拉语政治情感的数据集，从多个在线新闻报纸中精心收集，涵盖了孟加拉国选举期间的政治事件和对话。数据集包括文章和观点文章，确保了政治话语的多样性和代表性。

数据集结构

数据分割

数据类型	训练集	测试集	验证集
总数	5647	706	705
正面情感	3306	413	413
负面情感	2341	293	292

训练数据

情感类型	数量
正面	3306
负面	2341

测试数据

情感类型	数量
正面	413
负面	293

验证数据

情感类型	数量
正面	413
负面	292

性能比较

预训练语言模型性能

模型	准确率	精确率	召回率	F1分数
BanglaBERT	0.8204	0.8222	0.8204	0.8203
Bangla BERT Base	0.6803	0.6907	0.6812	0.6833
DistilBERT	0.6320	0.6358	0.6320	0.6317
mBERT	0.6427	0.6496	0.6428	0.6153
sahajBERT	0.6708	0.6791	0.6709	0.6707

大型语言模型性能

模型	指标	Zero-shot	5-shot	10-shot	15-shot
GPT 3.5 Turbo	准确率	0.8500	0.8900	0.9133	0.9400
	精确率	0.8467	0.8867	0.9200	0.9467
	召回率	0.8533	0.8926	0.9079	0.9342
	F1分数	0.8495	0.8896	0.9139	0.9404
Gemini 1.5 Pro	准确率	0.8608	0.8981	0.9200	0.9633
	精确率	0.8931	0.8846	0.9333	0.9667
	召回率	0.8477	0.9205	0.9091	0.9603
	F1分数	0.8698	0.9022	0.9211	0.9635

搜集汇总

数据集介绍

构建方式

Motamot数据集的构建方式是从孟加拉国选举期间的各种在线报纸门户网站收集政治相关新闻和评论。数据收集过程包括从信誉良好的新闻来源抓取文章和评论，确保样本的多样性和代表性。数据集由六名学生注释者进行手动标注，他们仔细分析了每篇文章的内容，以提供适当的情绪标签。数据集被分为三个基本类别：训练集（80%）、测试集（10%）和验证集（10%）。

使用方法

Motamot数据集可用于各种政治情绪分析任务，包括训练和评估预训练语言模型（PLMs）和大型语言模型（LLMs）。使用PLMs进行政治情绪分析的方法包括数据预处理、模型微调和性能评估。对于LLMs，使用零样本和少样本提示来评估其在政治情绪分析任务中的有效性。提示模板用于指导模型的行为，并提供上下文以确保准确的情感预测。

背景与挑战

背景概述

政治情感分析是识别和分类人们对各种主题的情绪或意见的过程。在选举季节，分析政治情感对于理解公众意见过程的复杂性至关重要。它提供了关于选民偏好、态度和当前趋势的重要信息。本研究调查了孟加拉国选举期间的政治情感分析，特别是考察了预训练语言模型（PLMs）和大型语言模型（LLMs）如何有效地捕捉复杂的情感特征。本研究集中在创建名为“Motamot”的数据集上，该数据集包含7,058个实例，标注有积极和消极的情感，来自多样化的在线新闻门户网站，形成一个全面的资源，用于政治情感分析。我们仔细评估了各种PLMs的性能，包括BanglaBERT、Bangla BERT Base、XLM-RoBERTa、mBERT和sahajBERT，以及LLMs如Gemini 1.5 Pro和GPT 3.5 Turbo。此外，我们还探讨了零样本和少样本学习策略，以增强我们对政治情感分析方法的了解。我们的发现强调了BanglaBERT在PLMs中的出色准确性，为88.10%。然而，对LLMs的探索揭示了更有希望的结果。通过巧妙地应用少样本学习技术，Gemini 1.5 Pro实现了令人印象深刻的96.33%的准确性，超过了GPT 3.5 Turbo的出色性能，后者为94%。这突显了Gemini 1.5 Pro在本比较中的卓越表现。

当前挑战

政治情感分析面临着几个挑战。首先，构建一个全面的、多样化的数据集，能够捕捉政治讨论中的细微差别，是一个挑战。其次，由于孟加拉语在NLP中的代表性有限，因此存在获取大量标注数据集的挑战。此外，政治语言往往具有细微差别和复杂性，这给情感分析模型带来了困难。最后，需要开发能够准确捕捉和解释复杂情感特征的模型。本研究通过创建“Motamot”数据集，并评估PLMs和LLMs在政治情感分析任务上的性能，为解决这些挑战做出了贡献。

常用场景

经典使用场景

在孟加拉语政治情感分析中，Motamot数据集被广泛用于评估和比较预训练语言模型（PLM）和大型语言模型（LLM）的性能。该数据集包含了7,058个标注为正面和负面情感的实例，这些数据来源于在线报纸，为政治情感分析提供了一个全面的资源。通过使用Motamot数据集，研究者可以评估不同模型在理解政治情感复杂性方面的有效性，并探索零样本和少样本学习策略。例如，BanglaBERT在PLM中表现出色，准确率达到88.10%，而Gemini 1.5 Pro在LLM中表现出色，准确率达到96.33%，显示了LLM在处理低资源语言任务方面的潜力。

解决学术问题

Motamot数据集解决了孟加拉语政治情感分析中的几个关键学术研究问题。首先，它提供了一个专门为孟加拉语政治情感分析设计的标注数据集，填补了孟加拉语情感分析领域的空白。其次，通过比较PLM和LLM的性能，该数据集揭示了LLM在处理低资源语言任务方面的优势，特别是当使用少样本学习策略时。此外，Motamot数据集还探讨了零样本和少样本学习策略在政治情感分析中的应用，为未来的研究提供了有价值的见解。

实际应用

Motamot数据集在实际应用中具有广泛的应用前景。它可以被用于分析孟加拉语在线报纸上的政治情感，以了解公众对政治事件、政策或政党的看法。此外，该数据集还可以用于开发智能系统，如聊天机器人或虚拟助手，以提供有关政治事件的见解或分析。此外，Motamot数据集还可以用于政治竞选活动，以了解选民的意见和态度，从而帮助政治家制定更有效的竞选策略。

数据集最近研究