BanglaBias

Name: BanglaBias
Creator: 达卡大学,马里兰大学巴尔的摩分校,孟加拉语LLM,玛哈希国际大学,Cisco Systems,Unityflow AI
Published: 2025-10-05 02:34:34
License: 暂无描述

arXiv2025-10-05 更新2025-10-08 收录

下载链接：

https://anon/BanglaBias

下载链接

链接失效反馈

官方服务：

资源简介：

BanglaBias是一个包含200篇政治意义显著且高度争议的孟加拉语新闻文章的基准数据集，这些文章被标记为政府倾向、政府批评和中立立场。该数据集为评估大型语言模型（LLMs）提供了诊断分析。数据集的创建过程包括从多个新闻来源和博客收集政治上有争议的事件，然后由三位母语为孟加拉语的人对这些文章进行标注。BanglaBias旨在解决孟加拉语新闻中政治立场检测的挑战，并为低资源环境中的LLM性能改进提供见解。

BanglaBias is a benchmark dataset containing 200 politically significant and highly controversial Bengali news articles, which are labeled with three political stances: government-aligned, government-critical, and neutral. This dataset provides diagnostic analysis for evaluating large language models (LLMs). The dataset was created by collecting politically controversial events from multiple news sources and blogs, followed by annotation conducted by three native Bengali speakers. BanglaBias aims to address the challenges of political stance detection in Bengali news, and offer insights for improving LLM performance in low-resource settings.

提供机构：

达卡大学,马里兰大学巴尔的摩分校,孟加拉语LLM,玛哈希国际大学,Cisco Systems,Unityflow AI

创建时间：

2025-10-05

搜集汇总

数据集介绍

构建方式

在孟加拉语政治偏见研究资源匮乏的背景下，BanglaBias数据集通过系统化流程构建而成。研究团队首先筛选了46个引发广泛争议的社会政治事件，涵盖2013至2025年间孟加拉国重大政治节点。通过定制化爬虫从多元媒体渠道采集新闻内容，经过严格的解析与标准化处理，最终由三位母语标注者采用三级标注框架（政府倾向、政府批评、中立）进行独立标注。标注者间达到73.5%的一致性，争议案例通过第三方仲裁机制解决，确保了标注质量的政治敏感性和文化适切性。

使用方法

该数据集主要服务于政治立场检测的模型评估与算法开发。研究者可采用推理式检测框架，要求模型在分类同时提供决策依据，从而实现定量指标与定性分析的结合。评估体系包含四维分析：基于混淆矩阵的误分类模式识别、雷达图呈现的模型偏差趋势、分标签性能剖析以及错误案例的归因分析。特别建议在处理类别不平衡时采用加权评估策略，并注重模型对中立内容与极化内容的区分能力，以全面衡量模型在复杂政治语境下的理解深度。

背景与挑战

背景概述

在自然语言处理领域，媒体偏见检测已成为关键研究方向，尤其在多语言环境下更显重要。BanglaBias数据集于2025年由达卡大学、马里兰大学等机构联合创建，专门针对孟加拉语新闻中的政治立场检测问题。该数据集包含200篇经过人工标注的政治新闻文章，涵盖政府倾向、政府批评和中立三种立场标签，旨在填补南亚地区低资源语言在政治立场分析领域的空白。其创新性在于首次系统性地构建了适用于孟加拉语政治语境的分析框架，为研究孟加拉国媒体生态中的叙事建构机制提供了重要基础。

当前挑战

该数据集面临的核心挑战主要体现在领域问题与构建过程两个维度。在领域问题层面，孟加拉语政治立场检测需克服语言特征复杂性，包括文化语境依赖、修辞策略多样性、英语代码转换现象以及隐含情感识别等难点。构建过程中，团队需应对标注一致性难题，初始标注者间仅达成73.5%的一致性系数，特别是在中立与政府批评类别的区分上存在显著歧义。此外，数据收集还面临政治敏感内容的处理挑战，需要确保在涵盖多元政治视角的同时保持学术客观性。

常用场景

经典使用场景

在孟加拉语媒体偏见研究领域，BanglaBias数据集主要应用于政治立场检测任务。该数据集通过200篇经过人工标注的新闻文章，为研究者提供了分析孟加拉语新闻中政府倾向、政府批评和中立立场的基准平台。在自然语言处理研究中，该数据集常被用于评估大型语言模型在低资源语言环境下的政治立场识别能力，特别是针对孟加拉语特有的语言特征和文化背景进行专门优化。

解决学术问题

BanglaBias数据集有效解决了孟加拉语政治立场检测研究中标注数据稀缺的核心问题。该数据集填补了南亚地区媒体偏见研究的空白，为理解孟加拉语新闻中隐含的政治立场、文化语境和修辞策略提供了实证基础。通过系统评估28个大型语言模型的性能表现，该数据集揭示了模型在处理中立内容时的显著困难，为改进低资源语言环境下的立场检测算法提供了重要参考。

实际应用

在实际应用层面，BanglaBias数据集为孟加拉语媒体监测和内容分析提供了技术支撑。新闻机构可利用该数据集开发自动化偏见检测工具，辅助编辑人员识别报道中的政治倾向。政府部门和民间组织也能基于此建立媒体监督机制，促进新闻报道的客观性和平衡性。教育机构则可将其纳入媒体素养课程，帮助学生理解新闻背后的政治立场和叙事框架。

数据集最近研究