Motamot_Bengali_Political_Sentiment_Analysis

Hugging Face2025-09-05 更新2025-09-06 收录

下载链接：

https://huggingface.co/datasets/Mukaffi28/Motamot_Bengali_Political_Sentiment_Analysis

下载链接

链接失效反馈

官方服务：

资源简介：

Motamot是一个孟加拉语政治情感分析数据集，包含7,058个标记数据点，专为分析孟加拉语政治言论而设计。该数据集适用于自然语言处理研究，包括情感分类、政治意见挖掘以及为低资源语言的大型语言模型进行基准测试。

创建时间：

2025-09-03

原始信息汇总

Motamot: 孟加拉语政治情感分析数据集

概述

Motamot是一个孟加拉语政治情感分析数据集，包含7,058个标注数据点。每个条目都标注了积极或消极情感，专门用于分析孟加拉语的政治论述。

该数据集支持自然语言处理研究，应用于情感分类、政治观点挖掘以及为低资源语言预训练和大语言模型基准测试。

数据集统计

分割	总数	积极	消极
训练集	5,647	3,306	2,341
测试集	706	413	293
验证集	705	413	292
总计	7,058	4,132	2,926

数据集结构

数据集包含以下文件：

train.csv：训练集（5,647个实例）
test.csv：测试集（706个实例）
validation.csv：验证集（705个实例）

每个文件包含：

text：孟加拉语政治陈述
label：情感类别（Positive或Negative）

基准结果

预训练语言模型比较分析

模型	准确率	精确率	召回率	F1分数
BanglaBERT	0.8204	0.8222	0.8204	0.8203
Bangla BERT Base	0.6803	0.6907	0.6812	0.6833
DistilBERT	0.6320	0.6358	0.6320	0.6317
mBERT	0.6427	0.6496	0.6428	0.6153
sahajBERT	0.6708	0.6791	0.6709	0.6707

大语言模型比较分析（少样本和零样本）

模型（LLM）	指标	零样本	5样本	10样本	15样本
GPT 3.5 Turbo	准确率	0.8500	0.8900	0.9133	0.9400
	精确率	0.8467	0.8867	0.9200	0.9467
	召回率	0.8533	0.8926	0.9079	0.9342
	F1分数	0.8495	0.8896	0.9139	0.9404
Gemini 1.5 Pro	准确率	0.8608	0.8981	0.9200	0.9633
	精确率	0.8931	0.8846	0.9333	0.9667
	召回率	0.8477	0.9205	0.9091	0.9603
	F1分数	0.8698	0.9022	0.9211	0.9635

引用信息

如果使用此数据集，请引用以下论文：

bibtex @INPROCEEDINGS{10752197, author={Johora Faria, Fatema Tuj and Moin, Mukaffi Bin and Mumu, Rabeya Islam and Alam Abir, Md Mahabubul and Alfy, Abrar Nawar and Alam, Mohammad Shafiul}, booktitle={2024 IEEE Region 10 Symposium (TENSYMP)}, title={Motamot: A Dataset for Revealing the Supremacy of Large Language Models Over Transformer Models in Bengali Political Sentiment Analysis}, year={2024}, pages={1-8}, keywords={Sentiment analysis;Analytical models;Accuracy;Voting;Large language models;Transformers;Market research;Few shot learning;Portals;IEEE Regions;Political Sentiment Analysis;Pre-trained Language Models;Large Language Models;Gemini 1.5 Pro;GPT 3.5 Turbo;Zero-shot Learning;Fewshot Learning;Low-resource Language}, doi={10.1109/TENSYMP61132.2024.10752197} }

许可证

MIT许可证

语言

bn（孟加拉语）

规模类别

1K<n<10K

搜集汇总

数据集介绍

构建方式

在孟加拉语政治情感分析领域，Motamot数据集通过系统化流程构建而成。研究团队从多个政治新闻平台和社交媒体渠道收集原始文本，经过严格的数据清洗和预处理，确保语言质量与内容相关性。采用人工标注策略，由多名母语标注者对7058条政治陈述进行情感极性判定，最终形成包含正向与负向标签的高质量语料，并按照标准比例划分为训练集、验证集和测试集。

特点

该数据集专攻低资源语言的政论情感分析，其核心特征体现在领域特异性和标注一致性。所有文本均聚焦政治 discourse，涵盖选举言论、政策评述等多元场景，语言风格具有鲜明的文化地域特征。数据分布呈现均衡的类别比例，正向样本4132条与负向样本2926条构成具有统计显著性的对比基础。数据集设计兼顾模型训练与评估需求，提供可直接用于监督学习的结构化数据格式。

使用方法

研究者可借助该数据集开展多项自然语言处理任务，主要包括监督式情感分类和预训练模型微调。使用时应遵循标准机器学习流程：首先加载CSV格式的分割数据，利用训练集进行模型参数优化，通过验证集调整超参数，最终在测试集上评估性能。数据集特别支持少样本与零样本学习实验，可与BanglaBERT等本地化模型或GPT-3.5 Turbo等大语言模型结合，推动低资源语言NLP技术的边界探索。

背景与挑战

背景概述

随着自然语言处理技术在低资源语言领域的深入发展，孟加拉语政治情感分析数据集Motamot应运而生。该数据集由孟加拉国研究团队于2024年创建，主要研究人员包括Fatema Tuj Johora Faria和Mukaffi Bin Moin等学者。其核心研究目标在于构建专门针对孟加拉语政治话语的情感标注语料，以支持政治意见挖掘和情感分类任务。该数据集的发布显著提升了孟加拉语自然语言处理的研究水平，为低资源语言的情感分析提供了重要基准，并对跨语言模型的政治情感分析能力评估产生了深远影响。

当前挑战

在政治情感分析领域，孟加拉语面临语言资源匮乏和方言变体复杂的双重挑战。Motamot数据集构建过程中需克服政治文本的语义模糊性和情感极性歧义问题，特别是在处理政治隐喻和讽刺表达时标注一致性难以保证。此外，孟加拉语独特的语法结构和词汇形态变化增加了文本预处理难度，而政治术语的时效性和地域特性要求标注者具备专业的政治语言学知识。这些因素共同构成了数据集构建的质量控制挑战，同时也为模型在低资源语言环境下的泛化能力提出了更高要求。

常用场景

经典使用场景

在孟加拉语政治文本分析领域，该数据集主要应用于情感分类任务，通过标注的政治言论文本训练模型识别积极与消极情感倾向。研究者利用其平衡的标注数据开展监督学习实验，特别是在低资源语言环境下验证传统Transformer模型与大型语言模型的性能差异，为政治舆情监控提供基准评估框架。

衍生相关工作

该数据集已衍生出多项经典研究，包括原论文中对比BanglaBERT与GPT-3.5 Turbo的跨模型评估框架，以及后续研究中对Gemini 1.5 Pro少样本学习能力的深入探索。相关工作进一步拓展至多模态政治情感分析、跨语言迁移学习等领域，形成低资源语言NLP技术演进的重要参照系。

数据集最近研究