five

Motamot_Bengali_Political_Sentiment_Analysis

收藏
Hugging Face2025-09-05 更新2025-09-06 收录
下载链接:
https://huggingface.co/datasets/Mukaffi28/Motamot_Bengali_Political_Sentiment_Analysis
下载链接
链接失效反馈
官方服务:
资源简介:
Motamot是一个孟加拉语政治情感分析数据集,包含7,058个标记数据点,专为分析孟加拉语政治言论而设计。该数据集适用于自然语言处理研究,包括情感分类、政治意见挖掘以及为低资源语言的大型语言模型进行基准测试。
创建时间:
2025-09-03
原始信息汇总

Motamot: 孟加拉语政治情感分析数据集

概述

Motamot是一个孟加拉语政治情感分析数据集,包含7,058个标注数据点。每个条目都标注了积极或消极情感,专门用于分析孟加拉语的政治论述。

该数据集支持自然语言处理研究,应用于情感分类、政治观点挖掘以及为低资源语言预训练和大语言模型基准测试。

数据集统计

分割 总数 积极 消极
训练集 5,647 3,306 2,341
测试集 706 413 293
验证集 705 413 292
总计 7,058 4,132 2,926

数据集结构

数据集包含以下文件:

  • train.csv:训练集(5,647个实例)
  • test.csv:测试集(706个实例)
  • validation.csv:验证集(705个实例)

每个文件包含:

  • text:孟加拉语政治陈述
  • label:情感类别(Positive或Negative)

基准结果

预训练语言模型比较分析

模型 准确率 精确率 召回率 F1分数
BanglaBERT 0.8204 0.8222 0.8204 0.8203
Bangla BERT Base 0.6803 0.6907 0.6812 0.6833
DistilBERT 0.6320 0.6358 0.6320 0.6317
mBERT 0.6427 0.6496 0.6428 0.6153
sahajBERT 0.6708 0.6791 0.6709 0.6707

大语言模型比较分析(少样本和零样本)

模型(LLM) 指标 零样本 5样本 10样本 15样本
GPT 3.5 Turbo 准确率 0.8500 0.8900 0.9133 0.9400
精确率 0.8467 0.8867 0.9200 0.9467
召回率 0.8533 0.8926 0.9079 0.9342
F1分数 0.8495 0.8896 0.9139 0.9404
Gemini 1.5 Pro 准确率 0.8608 0.8981 0.9200 0.9633
精确率 0.8931 0.8846 0.9333 0.9667
召回率 0.8477 0.9205 0.9091 0.9603
F1分数 0.8698 0.9022 0.9211 0.9635

引用信息

如果使用此数据集,请引用以下论文:

bibtex @INPROCEEDINGS{10752197, author={Johora Faria, Fatema Tuj and Moin, Mukaffi Bin and Mumu, Rabeya Islam and Alam Abir, Md Mahabubul and Alfy, Abrar Nawar and Alam, Mohammad Shafiul}, booktitle={2024 IEEE Region 10 Symposium (TENSYMP)}, title={Motamot: A Dataset for Revealing the Supremacy of Large Language Models Over Transformer Models in Bengali Political Sentiment Analysis}, year={2024}, pages={1-8}, keywords={Sentiment analysis;Analytical models;Accuracy;Voting;Large language models;Transformers;Market research;Few shot learning;Portals;IEEE Regions;Political Sentiment Analysis;Pre-trained Language Models;Large Language Models;Gemini 1.5 Pro;GPT 3.5 Turbo;Zero-shot Learning;Fewshot Learning;Low-resource Language}, doi={10.1109/TENSYMP61132.2024.10752197} }

许可证

MIT许可证

语言

  • bn(孟加拉语)

标签

  • political(政治)
  • news(新闻)
  • sentiment(情感)
  • arXiv:2407.19528

规模类别

1K<n<10K

搜集汇总
数据集介绍
main_image_url
构建方式
在孟加拉语政治情感分析领域,Motamot数据集通过系统化流程构建而成。研究团队从多个政治新闻平台和社交媒体渠道收集原始文本,经过严格的数据清洗和预处理,确保语言质量与内容相关性。采用人工标注策略,由多名母语标注者对7058条政治陈述进行情感极性判定,最终形成包含正向与负向标签的高质量语料,并按照标准比例划分为训练集、验证集和测试集。
特点
该数据集专攻低资源语言的政论情感分析,其核心特征体现在领域特异性和标注一致性。所有文本均聚焦政治 discourse,涵盖选举言论、政策评述等多元场景,语言风格具有鲜明的文化地域特征。数据分布呈现均衡的类别比例,正向样本4132条与负向样本2926条构成具有统计显著性的对比基础。数据集设计兼顾模型训练与评估需求,提供可直接用于监督学习的结构化数据格式。
使用方法
研究者可借助该数据集开展多项自然语言处理任务,主要包括监督式情感分类和预训练模型微调。使用时应遵循标准机器学习流程:首先加载CSV格式的分割数据,利用训练集进行模型参数优化,通过验证集调整超参数,最终在测试集上评估性能。数据集特别支持少样本与零样本学习实验,可与BanglaBERT等本地化模型或GPT-3.5 Turbo等大语言模型结合,推动低资源语言NLP技术的边界探索。
背景与挑战
背景概述
随着自然语言处理技术在低资源语言领域的深入发展,孟加拉语政治情感分析数据集Motamot应运而生。该数据集由孟加拉国研究团队于2024年创建,主要研究人员包括Fatema Tuj Johora Faria和Mukaffi Bin Moin等学者。其核心研究目标在于构建专门针对孟加拉语政治话语的情感标注语料,以支持政治意见挖掘和情感分类任务。该数据集的发布显著提升了孟加拉语自然语言处理的研究水平,为低资源语言的情感分析提供了重要基准,并对跨语言模型的政治情感分析能力评估产生了深远影响。
当前挑战
在政治情感分析领域,孟加拉语面临语言资源匮乏和方言变体复杂的双重挑战。Motamot数据集构建过程中需克服政治文本的语义模糊性和情感极性歧义问题,特别是在处理政治隐喻和讽刺表达时标注一致性难以保证。此外,孟加拉语独特的语法结构和词汇形态变化增加了文本预处理难度,而政治术语的时效性和地域特性要求标注者具备专业的政治语言学知识。这些因素共同构成了数据集构建的质量控制挑战,同时也为模型在低资源语言环境下的泛化能力提出了更高要求。
常用场景
经典使用场景
在孟加拉语政治文本分析领域,该数据集主要应用于情感分类任务,通过标注的政治言论文本训练模型识别积极与消极情感倾向。研究者利用其平衡的标注数据开展监督学习实验,特别是在低资源语言环境下验证传统Transformer模型与大型语言模型的性能差异,为政治舆情监控提供基准评估框架。
衍生相关工作
该数据集已衍生出多项经典研究,包括原论文中对比BanglaBERT与GPT-3.5 Turbo的跨模型评估框架,以及后续研究中对Gemini 1.5 Pro少样本学习能力的深入探索。相关工作进一步拓展至多模态政治情感分析、跨语言迁移学习等领域,形成低资源语言NLP技术演进的重要参照系。
数据集最近研究
最新研究方向
随着低资源语言处理需求的日益增长,孟加拉语政治情感分析数据集Motamot成为自然语言处理领域的前沿研究对象。该数据集聚焦于政治话语的情感极性标注,为探索大语言模型在低资源语言环境下的迁移学习能力提供了重要基准。最新研究表明,Gemini 1.5 Pro和GPT 3.5 Turbo等大模型在少样本和零样本学习场景中展现出显著优势,准确率最高达96.33%,这为突破传统Transformer模型在低资源语言处理中的性能瓶颈提供了新思路。相关研究不仅推动了跨语言情感分析技术的发展,更为全球语言多样性保护与数字包容性建设提供了技术支撑,具有重要的学术价值与社会意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作