阿拉伯语推文仇恨言论分析数据集
收藏arXiv2025-05-23 更新2025-05-28 收录
下载链接:
http://arxiv.org/abs/2505.11969v2
下载链接
链接失效反馈官方服务:
资源简介:
本数据集为阿拉伯语推文仇恨言论分析数据集,包含10000条阿拉伯语推文,由多位标注者对每条推文进行标注,判断其是否包含冒犯性内容。如果包含冒犯性内容,进一步将其分类为针对宗教、性别、政治、种族、起源等多个目标的仇恨言论。数据集的创建旨在为阿拉伯语自然语言处理领域提供一个资源,以促进仇恨言论检测的研究。
This is an Arabic tweet hate speech analysis dataset, consisting of 10,000 Arabic tweets. Each tweet was annotated by multiple annotators to first determine whether it contains offensive content. For tweets identified as offensive, further annotation is conducted to classify them into hate speech targeting multiple dimensions including religion, gender, politics, race, and origin. This dataset was developed to provide a resource for the Arabic natural language processing (NLP) field, so as to promote research on hate speech detection.
提供机构:
卡塔尔西北大学,教育城,多哈,卡塔尔;卡塔尔哈马德本哈利法大学,多哈,卡塔尔
创建时间:
2025-05-17
搜集汇总
数据集介绍

构建方式
阿拉伯语推文仇恨言论分析数据集的构建采用了多阶段筛选与标注流程。研究团队从6000万条阿拉伯语推文中随机抽取60万条,经过去重、长度筛选后,利用ASAD工具进行内容分类,最终选取1万条具有代表性的推文。标注过程由来自不同阿拉伯国家的多名标注员完成,采用MicroMappers平台进行多标签标注,涵盖攻击性内容、仇恨言论目标(如宗教、性别、政治等七类)。通过Fleiss’ Kappa计算,标注员间一致性达0.8143,确保了标注质量。
特点
该数据集具有显著的多元文化覆盖与细粒度标注特征。作为首个针对阿拉伯语的多标签仇恨言论数据集,其创新性体现在:(1)囊括现代标准阿拉伯语及多种方言变体,覆盖政治、宗教、性别等七类仇恨目标;(2)60.36%的推文被标注为攻击性内容,其中28.76%涉及政治意识形态,26.2%针对种族/地域,反映了阿拉伯社交媒体的话语特征;(3)采用动态标注策略,允许单条推文关联多个仇恨目标,更贴合实际语境中仇恨言论的复杂性。
使用方法
该数据集适用于自然语言处理领域的多任务研究。研究者可通过微调预训练模型(如AraBERTv2)进行二元分类(攻击性/非攻击性)或多标签仇恨目标预测,实验显示其在测试集上达到0.786的准确率。使用建议包括:(1)利用提供的70-20-10训练-测试-验证划分;(2)注意处理阿拉伯语方言变体与特殊字符;(3)结合迁移学习缓解数据规模限制。数据集遵循CC BY 4.0协议,可通过Zenodo平台获取,配套代码已开源。
背景与挑战
背景概述
阿拉伯语推文仇恨言论分析数据集由Wajdi Zaghouani和Md. Rafiul Biswas于2025年提出,旨在解决阿拉伯语社交媒体中仇恨言论检测的复杂性问题。该数据集包含10,000条阿拉伯语推文,每条推文均标注是否含有攻击性内容,并进一步细分为宗教、性别、政治、种族、出身等多类仇恨目标。阿拉伯语因其丰富的方言变体和高度非正式的表达方式,使得自然语言处理任务极具挑战性。该数据集的推出填补了阿拉伯语仇恨言论检测领域的数据空白,为后续研究提供了重要资源。
当前挑战
该数据集面临的挑战主要包括两方面:领域问题挑战和构建过程挑战。在领域问题方面,阿拉伯语的方言多样性使得仇恨言论检测模型难以泛化,且多标签分类(如一条推文同时涉及宗教和性别仇恨)增加了模型设计的复杂性。构建过程中,数据收集受限于推特API的付费访问政策,方言标注需依赖多地区标注者协作,而标注一致性(攻击性内容标注的Kappa值为0.86,仇恨目标的Kappa值为0.71)仍需优化。此外,非标准阿拉伯语表达(如方言混合、网络用语)对文本预处理和模型训练提出了更高要求。
常用场景
经典使用场景
阿拉伯语推文仇恨言论分析数据集在自然语言处理领域中被广泛应用于仇恨言论检测模型的训练与评估。该数据集通过标注阿拉伯语推文中的仇恨言论目标(如宗教、性别、政治等),为研究者提供了丰富的多标签分类任务场景。其经典使用场景包括基于Transformer的预训练模型(如AraBERTv2)的微调,以提升模型在复杂方言环境下的仇恨言论识别能力。
解决学术问题
该数据集有效解决了阿拉伯语仇恨言论检测中的两大核心学术问题:一是填补了阿拉伯语方言多样性导致的标注数据稀缺性,二是通过多标签分类框架捕捉仇恨言论的多目标特性(如宗教与性别交织的仇恨内容)。其0.86的标注者间一致性分数为低资源语言的标注规范提供了方法论参考,推动了跨方言NLP研究的发展。
衍生相关工作
该数据集催生了多项经典衍生研究,包括基于多任务学习的方言自适应仇恨检测框架(Alhazmi et al. 2024)、融合BERT与CNN的混合模型(mBERT+CNN)等。其中Zaghouani团队后续提出的So hateful!数据集扩展了情绪强度标注,形成更完整的阿拉伯网络暴力分析体系。
以上内容由遇见数据集搜集并总结生成



