Student-People Mass Uprising Public Sentiments Dataset

Name: Student-People Mass Uprising Public Sentiments Dataset
Creator: 孟加拉国达卡孟加拉国大学计算机科学与工程学院, 孟加拉国塔加伊尔毛拉纳·巴山尼科学与技术大学计算机科学与工程学院
Published: 2025-07-15 16:26:58
License: 暂无描述

arXiv2025-07-15 更新2025-08-15 收录

下载链接：

https://zenodo.org/records/15342899

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

本数据集名为“Student-People Mass Uprising Public Sentiments Dataset”，由孟加拉国达卡孟加拉国大学计算机科学与工程学院和孟加拉国塔加伊尔毛拉纳·巴山尼科学与技术大学计算机科学与工程学院的研究人员创建。数据集包含4,200条孟加拉语评论，来自Facebook、YouTube和Twitter（X）等社交媒体平台，涵盖积极、消极和中立三种情感类别。数据集收集于7月革命期间及其后的社交媒体帖子中，通过手动标注和平衡分类构建而成。该数据集旨在用于孟加拉语情感分析，特别是对低资源语言的情感分析研究。

提供机构：

孟加拉国达卡孟加拉国大学计算机科学与工程学院, 孟加拉国塔加伊尔毛拉纳·巴山尼科学与技术大学计算机科学与工程学院

创建时间：

2025-07-15

搜集汇总

数据集介绍

构建方式

该数据集构建于孟加拉国七月革命期间及之后，通过手动收集社交媒体平台（包括Facebook、YouTube和Twitter）上的孟加拉语评论。研究人员从2024年9月至10月间，筛选与七月革命相关的公开帖子和新闻评论，最终构建了包含4,200条评论的平衡数据集。每条评论根据情感倾向被人工标注为积极、消极或中性三类，每类各含1,400条样本。数据预处理阶段采用了包括分词、停用词过滤、标点符号去除、词干提取及文本归一化等技术，以确保数据质量。

特点

数据集的核心特点在于其专注于低资源语言（孟加拉语）的社会政治语境情感分析，填补了该领域研究空白。评论内容真实反映了学生领导的大规模起义期间公众情绪的复杂性，涵盖支持、谴责及中立立场。数据分布经过严格平衡，三类情感样本数量均等，避免了分类偏差。此外，评论长度呈现右偏分布，多数集中在50-60个字符，符合社交媒体文本的简洁性特征。数据集还提供了原始评论的英文翻译，增强了跨语言研究的可用性。

使用方法

该数据集适用于多模态情感分析研究，尤其适合测试混合Transformer模型在低资源语言中的性能。使用流程建议分为三步：首先加载预处理后的CSV文件，划分80%训练集和20%测试集；其次通过预训练模型（如BanglaBERT或本研究的Hybrid XMB-BERT）提取特征向量；最后结合传统机器学习分类器（如投票集成或XGBoost）进行情感分类。研究证明，采用PCA降维后结合投票分类器可获得最佳性能（准确率83.7%）。数据集还可用于跨语言迁移学习或社会政治话语分析的比较研究。

背景与挑战

背景概述

Student-People Mass Uprising Public Sentiments Dataset 是由孟加拉国大学和 Mawlana Bhashani 科学技术大学的研究团队于2025年创建的，旨在分析孟加拉国七月革命期间社交媒体上的公众情感。该数据集包含4200条手动收集和标注的孟加拉语社交媒体评论，涵盖了积极、消极和中性三种情感类别。这一数据集的创建填补了孟加拉语这一低资源语言在自然语言处理领域，特别是在政治和社会运动情感分析方面的空白。通过结合多种先进的预训练模型（如 BanglaBERT、mBERT 和 XLM-RoBERTa），研究团队提出了混合模型 XMB-BERT，显著提升了情感分类的准确性和鲁棒性。

当前挑战

该数据集在构建和应用过程中面临多重挑战。在领域问题方面，孟加拉语作为一种低资源语言，其复杂的语法结构和丰富的方言变体增加了情感分析的难度。此外，社交媒体文本的噪声和非正式表达（如俚语、缩写和拼写错误）进一步加剧了模型训练的复杂性。在数据集构建过程中，手动收集和标注数据耗时耗力，且标注过程中可能存在主观偏差。同时，数据集的规模相对较小（4200条评论），可能限制了模型在更广泛场景下的泛化能力。最后，计算资源的限制（如训练多个预训练模型的高成本）也是实际应用中的一大挑战。

常用场景

经典使用场景

在社会科学与计算语言学的交叉领域，Student-People Mass Uprising Public Sentiments Dataset为研究社会运动中的公众情绪动态提供了关键数据支撑。该数据集最典型的应用场景在于通过混合Transformer架构（如XMB-BERT）分析孟加拉语社交媒体评论，精准捕捉政治动荡时期公众支持、反对或中立的情感倾向。其平衡的三大情感类别标注（各1,400条）特别适用于多分类任务，常被用于验证跨语言预训练模型在低资源语言中的迁移能力。

实际应用

在现实应用中，该数据集支撑的模型可实时监测社会运动中的舆论风向，为政府危机公关提供决策依据。例如在孟加拉国后续的选举活动中，类似技术被用于预警潜在冲突区域。NGO组织则利用其分析伤残抗议者相关的舆论支持度，优化援助策略。商业领域亦借鉴该框架开发孟加拉语产品评论分析系统，准确率提升至96.42%（如Sunny等人研究所示），凸显其跨领域迁移价值。

衍生相关工作

该数据集已催生多个重要研究方向：Nobel等人基于其标注规范构建了50,000条孟加拉语反欺凌评论数据集（准确率92.09%）；Khanam团队受XMB-BERT启发开发了针对新闻情感的CNN-LSTM混合模型；Ashraf则延伸至可解释AI领域，用逻辑回归模型（85.57%准确率）解析政治评论中的攻击性语言成因。这些工作共同推动了南亚地区低资源语言NLP的技术演进。

以上内容由遇见数据集搜集并总结生成

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集