Bangladesh 2024 Mass Uprising News Headlines Dataset
收藏arXiv2025-12-17 更新2025-12-19 收录
下载链接:
https://en.wikipedia.org/wiki/July_Revolution_(Bangladesh)
下载链接
链接失效反馈官方服务:
资源简介:
该数据集由孟加拉国南北大学和Jahangirnagar大学联合创建,收录2024年孟加拉大规模起义期间Facebook新闻标题2028条,采用人工标注分为愤怒、希望与绝望三类情感。数据来源自主流新闻门户,通过关键词过滤和时间对齐构建,并应用回译增强解决类别不平衡问题。作为首个针对危机时期孟加拉语情感的语料库,其细粒度标注体系为研究社会动荡中的公众情绪演变提供了重要基础,特别适用于政治传播学和社会计算领域的情感模式分析。
This dataset was co-created by North South University and Jahangirnagar University in Bangladesh. It contains 2,028 Facebook news headlines collected during the 2024 large-scale uprisings in Bangladesh. All the headlines were manually annotated into three emotional categories: anger, hope, and despair. The dataset was constructed using data sourced from mainstream news portals, via keyword filtering and temporal alignment, and augmented with back-translation to address the class imbalance issue. As the first corpus dedicated to Bengali sentiment analysis during crisis periods, its fine-grained annotation system provides a critical foundation for researching the evolution of public sentiment amid social unrest, and is particularly well-suited for sentiment pattern analysis in the fields of political communication and social computing.
提供机构:
南北大学, Jahangirnagar大学
创建时间:
2025-12-17
搜集汇总
数据集介绍

构建方式
在数字媒体时代,社交媒体已成为公众表达的核心场域,尤其在政治动荡期间。本研究构建了一个聚焦孟加拉国2024年大规模起义的新闻标题数据集,其构建过程体现了严谨的学术规范。数据来源于2024年7月5日至8月30日期间孟加拉国主要新闻机构在Facebook平台发布的新闻标题,通过基于关键词和时间对齐的相关性评分函数进行筛选,确保所有内容均与起义事件高度相关。随后,研究团队依据抗议心理学理论,为每个标题手动标注了“愤怒”、“希望”与“绝望”三类精细情感标签,并通过多数投票机制确定最终类别,在试点标注中取得了0.78的科恩卡帕系数,证实了标注框架的可靠性。为应对“愤怒”类样本不足的问题,研究还采用了基于BanglaT5的释义增强策略,有效改善了数据集的类别分布。
特点
该数据集在孟加拉语自然语言处理领域具有鲜明的特色与价值。其核心特点在于首次针对国家级危机事件构建了细粒度的情感分析语料,突破了以往研究多关注常规政治事件或采用二元情感标签的局限。数据集包含2028条经过人工标注的新闻标题,情感分类体系基于社会学理论设计,能够精准捕捉动荡时期公众情绪的复杂光谱。此外,数据集与真实历史事件严格对齐,使得研究者能够分析互联网封锁、领导层更迭等关键事件对公众情绪的时序性影响。通过潜在狄利克雷分配模型进行的主题分析进一步揭示了数据背后关于政治腐败、公众抗议等深层议题,为理解社会运动中的情感动力学提供了多维视角。
使用方法
该数据集为探索低资源语言在高压政治环境下的情感分析提供了重要基准。在具体应用上,研究者可采用分层划分策略,将数据分为训练集、验证集和测试集,以公平评估不同模型的性能。研究论文展示了从传统机器学习模型到预训练语言模型乃至大型语言模型的完整评估流程。对于传统方法,可结合词频-逆文档频率等特征进行支持向量机、逻辑回归等模型的训练;对于深度学习方法,则可微调BanglaBERT、XLM-RoBERTa等语言特定或跨语言模型。数据集亦支持基于潜在狄利克雷分配的主题建模分析,以挖掘不同情感类别下的潜在议题。该资源公开于Kaggle平台,便于后续研究在舆情监测、危机沟通策略分析等领域的拓展与应用。
背景与挑战
背景概述
在数字时代,社交媒体已成为公众表达的核心场域,尤其在政治动荡期间,平台如Facebook放大了公民声音,成为新闻传播、情感宣泄与集体动员的非正式渠道。针对孟加拉语这一低资源语言在政治危机中情感动态的研究尚存空白,由北南大学和贾汉吉尔纳加尔大学的研究团队于2025年创建的“Bangladesh 2024 Mass Uprising News Headlines Dataset”应运而生。该数据集收录了2024年7月至8月孟加拉国大规模起义期间,从主要Facebook新闻门户抓取的2028条标注新闻标题,核心研究问题在于解析社会动荡时期公众情感的精细结构,特别是愤怒、希望与绝望三类情绪的演变规律。该资源填补了危机情境下孟加拉语情感分析数据集的空缺,为理解政治转型期的公众心理与媒体叙事提供了实证基础。
当前挑战
该数据集旨在解决的领域挑战,在于对低资源语言在复杂社会政治事件中产生的细粒度情感进行精准分类与动态追踪。传统情感分析多集中于英语等资源丰富语言,或在Twitter等结构化平台上进行二元情感判断,难以捕捉危机语境下如绝望与希望等复杂、交织的公众情绪光谱。在构建过程中,研究团队面临多重挑战:首先,数据收集受限于危机期间的信息管控与互联网封锁,导致特定时段的数据缺失与情感分布扭曲;其次,为构建可靠的三分类情感标注体系,需克服标注者主观差异,并通过严格的试点研究确保标注一致性;此外,数据固有的类别不平衡问题,特别是“愤怒”类样本的不足,要求采用基于BanglaT5的释义增强等策略以优化模型训练效果。
常用场景
经典使用场景
在孟加拉语自然语言处理领域,针对社会政治动荡时期公众情绪的精细分析长期缺乏高质量数据集。该数据集通过收集2024年孟加拉国大规模起义期间Facebook新闻门户的2028条标注标题,构建了包含愤怒、希望与绝望的三元情感分类体系,为研究危机语境下的语言情感动态提供了标准化的评估基准。其经典应用场景集中于训练和评估针对孟加拉语政治文本的细粒度情感分类模型,特别是比较语言特异性预训练模型与多语言模型在低资源语言任务上的性能差异。
实际应用
该数据集的实际应用价值体现在社会感知与政策响应等多个层面。在舆情监测领域,基于该数据集训练的模型能够实时分析孟加拉语社交媒体在危机期间的舆论风向,为政府机构或国际组织提供早期预警和态势感知。在社会科学研究中,数据集可用于量化分析特定政治事件如何触发公众情绪的集体转变,从而检验关于社会动员、信息传播与情感传染的理论假设。此外,其方法论框架可迁移至其他经历社会动荡的低资源语言地区,为跨文化的比较政治研究和危机沟通策略制定提供可复制的分析工具。
衍生相关工作
该数据集的发布催生了一系列围绕低资源语言政治情感分析的衍生研究。在方法论层面,研究验证了BanglaBERT等语言特异性模型相较于mBERT等通用模型在特定文化政治语境下的优势,推动了针对孟加拉语的定制化预训练技术发展。在主题分析方面,结合潜在狄利克雷分配模型的运用,衍生工作深入探讨了政治腐败、学生抗议、自然灾害等主题与特定情感类别的关联,形成了多模态的社会危机叙事分析框架。此外,数据集建立的评估基准也激励了后续研究探索更高效的数据增强策略、处理类别不平衡问题的新方法,以及将细粒度情感分析扩展到更长文本格式或结合多语言对比学习的研究方向。
以上内容由遇见数据集搜集并总结生成



