BanglaMultiHate
收藏arXiv2025-10-02 更新2025-10-04 收录
下载链接:
https://tube/v3/3
下载链接
链接失效反馈官方服务:
资源简介:
BanglaMultiHate是孟加拉语仇恨言论检测领域的一个多任务数据集,它包含了仇恨言论的类型、严重性和目标。该数据集是迄今为止最大的手动标注语料库之一,由来自YouTube视频的公开评论组成。它旨在支持各种分类任务,包括识别不同类型的仇恨言论、仇恨的严重程度以及确定仇恨的目标。该数据集由35名孟加拉语母语者进行标注,确保了标注的一致性和可靠性。BanglaMultiHate为开发文化上相协调的调节工具提供了更强大的基准。
BanglaMultiHate is a multi-task dataset in the domain of Bengali hate speech detection. It covers the type, severity and target of hate speech. As one of the largest manually annotated corpora to date, this dataset is composed of public comments sourced from YouTube videos. It is designed to support various classification tasks, including identifying different types of hate speech, evaluating the severity of hate speech, and determining the target of such hateful content. Annotated by 35 native Bengali speakers, the dataset ensures annotation consistency and reliability. BanglaMultiHate provides a more robust benchmark for developing culturally aligned moderation tools.
提供机构:
多伦多大学、卡塔尔计算研究所、达芙朵国际大学、麦考瑞大学
创建时间:
2025-10-02
搜集汇总
数据集介绍
构建方式
在社交媒体内容审核研究领域,BanglaMultiHate数据集通过系统化流程构建而成。数据采集阶段利用YouTube API从孟加拉语新闻频道公开评论中获取原始语料,经过严格过滤去除仅含表情符号、URL及重复条目,并排除罗马化孟加拉语内容,最终保留50,746条有效文本。标注环节采用多任务标注框架,由35名母语标注者依据明确指南对每条评论进行仇恨类型、严重程度及目标对象的三维标注,通过多数表决机制与争议共识会议确保标注质量,弗莱斯卡帕系数显示各类任务标注一致性达0.71至0.84。
特点
该数据集在低资源语言仇恨检测领域具有显著特征。其多任务架构同步涵盖仇恨类型(辱骂、性别歧视、宗教仇恨、政治仇恨、污言秽语)、严重程度(轻微至严重三级)与目标对象(个人、组织、社群等)的细粒度标注,突破传统二分类局限。数据覆盖19个主题类别与120个子类,呈现真实场景下的类别不平衡特性,如性別歧视与宗教仇恨样本稀缺而辱骂类占主导,这种分布特性为模型鲁棒性评估提供挑战性基准。文本长度集中在20词以内的语言特征也反映了孟加拉语社交媒体表达习惯。
使用方法
该数据集支持多层次自然语言处理研究应用。在模型训练层面,研究者可采用分层抽样获得的训练集(70%)、开发集(10%)与测试集(20%)进行监督学习,通过传统机器学习、单语预训练模型或大语言模型微调等范式开发分类系统。评估阶段需重点关注宏观F1分数与加权指标以应对类别不平衡,特别在零样本学习场景中需设计文化适配的提示模板。实际部署时,经该数据集训练的模型可集成至社交媒体平台内容审核流水线,通过API服务实时检测孟加拉语仇恨言论,并为跨文化仇恨语音研究提供可比对基准。
背景与挑战
背景概述
随着社交媒体平台在孟加拉语用户中的普及,网络仇恨言论的传播已成为严峻的社会问题。BanglaMultiHate数据集由多伦多大学、卡塔尔计算研究所等机构于2025年联合发布,旨在填补孟加拉语多任务仇恨言论检测的资源空白。该数据集包含5万余条来自YouTube新闻评论的手动标注数据,首次实现了对仇恨类型、严重程度和攻击目标的三维标注体系,为低资源语言的语义理解研究提供了重要基准。
当前挑战
在领域问题层面,孟加拉语复杂的形态结构、自由语序特征及与英语的语码混合现象,导致通用模型难以捕捉文化特定的隐喻表达和地域性侮辱用语。构建过程中面临标注一致性挑战,需通过35名母语标注者经过三轮独立标注与共识会议解决;数据高度不平衡使得少数类别如性别歧视仅占0.3%,同时需处理注释过程中可能引发的心理创伤风险。
常用场景
经典使用场景
在孟加拉语社交媒体内容安全分析领域,BanglaMultiHate数据集被广泛应用于多任务仇恨言论检测模型的训练与评估。该数据集通过同时标注仇恨言论类型、严重程度和攻击目标三个维度,为研究者提供了细粒度的分类基准。在YouTube平台孟加拉语新闻评论的分析中,该数据集能够有效识别包括辱骂性言论、政治仇恨、宗教歧视等六种仇恨类型,为低资源语言的在线内容治理提供了重要支撑。
实际应用
在现实应用层面,BanglaMultiHate数据集已被整合到多个孟加拉语社交媒体平台的内容审核系统中。基于该数据集训练的模型能够实时监测YouTube等平台的用户评论,自动识别具有攻击性的内容并评估其危害等级。新闻机构利用该技术过滤不当言论,政府监管部门则借助其分析网络仇恨言论的分布规律,为制定数字治理政策提供数据支持,有效维护了在线交流环境的健康秩序。
衍生相关工作
该数据集的发布催生了系列重要研究成果,包括基于BanglaBERT的多任务迁移学习框架、结合LoRA微调的大型语言模型适配方案等。研究者们在此基础上开发了分层分类架构,将类型识别与严重程度评估进行任务解耦。同时衍生出针对特定仇恨类别(如宗教歧视、性别仇恨)的专项检测模型,以及面向孟加拉语方言变体的跨域适应方法,形成了低资源语言仇恨检测的技术生态体系。
以上内容由遇见数据集搜集并总结生成



