An Annotated Corpus of Arabic Tweets for Hate Speech Analysis
收藏arXiv2025-05-17 更新2025-05-21 收录
下载链接:
http://arxiv.org/abs/2505.11969v1
下载链接
链接失效反馈官方服务:
资源简介:
本研究介绍了一个阿拉伯语多标签仇恨言论数据集。该数据集包含10000条阿拉伯语推文,并对每条推文进行了标注,标注内容包括是否包含攻击性内容,以及如果包含,则进一步分类为不同的仇恨言论目标,如宗教、性别、政治、种族、起源等。数据集由多个标注员参与标注,并计算了标注员之间的互信度,攻击性内容的互信度为0.86,多标签仇恨言论目标的互信度为0.71。数据集可用于训练和评估阿拉伯语社交媒体内容中的仇恨言论检测模型。
This study introduces an Arabic multi-label hate speech dataset. The dataset contains 10,000 Arabic tweets, with each tweet annotated to indicate whether it contains offensive content. If offensive content is present, the tweet is further categorized into different hate speech targets including religion, gender, politics, ethnicity, origin, and others. Multiple annotators participated in the annotation process, and the inter-annotator agreement (IAA) was calculated: 0.86 for offensive content detection, and 0.71 for multi-label hate speech target classification. This dataset can be used to train and evaluate hate speech detection models for Arabic social media content.
提供机构:
卡塔尔哈马德·本·哈利法大学
创建时间:
2025-05-17
搜集汇总
数据集介绍

构建方式
该数据集的构建过程体现了严谨的科学方法论。研究人员从6000万条阿拉伯语推文中随机抽取1%作为初始样本,经过去重、长度筛选等预处理步骤后,采用ASAD工具进行内容分类。为确保数据多样性,研究者根据分类置信度分层抽样,最终精选出10000条具有代表性的推文。标注工作由来自多个阿拉伯国家的专业标注员完成,采用MicroMappers平台进行协同标注,并通过Fleiss' Kappa系数(0.8143)验证了标注一致性。数据集特别设计了多层次标注体系,先判别内容是否具有攻击性,再细分为宗教、性别、政治等七类仇恨言论目标。
特点
该数据集在阿拉伯语自然语言处理领域具有显著特色。其核心价值在于首创的多标签标注体系,允许单条推文同时标注多个仇恨言论目标,精准捕捉阿拉伯社交媒体中复杂的仇恨言论现象。数据样本覆盖60.36%的攻击性内容和37.19%的清洁内容,包含28.76%的政治类、26.20%的种族类以及13.51%的宗教类仇恨言论等七类目标分布。特别值得注意的是,数据集充分考虑了阿拉伯语方言多样性,标注团队由来自突尼斯、埃及等不同地区的语言专家组成,确保了方言表达的准确理解。数据集遵循CC BY 4.0协议开放获取,为研究社区提供了宝贵的资源。
使用方法
该数据集为阿拉伯语仇恨言论检测研究提供了标准化的实验平台。研究者可采用70:20:10的比例划分训练集、测试集和验证集,利用Transformer架构进行模型微调。实验证明,AraBERTv2模型在该数据集上表现最优,在攻击性内容分类任务中达到0.7865的微F1值。使用时应先进行文本预处理,包括去除链接、用户名和特殊字符等步骤。针对多标签分类任务,建议采用sigmoid损失函数,设置batch_size=4、learning_rate=2e-5等超参数。数据集特别适用于跨方言仇恨言论检测研究,但需注意其样本主要来自2020年8-10月的推特数据,使用时应考虑时效性因素。
背景与挑战
背景概述
随着社交媒体平台的普及,网络仇恨言论的检测成为自然语言处理领域的重要研究方向。阿拉伯语由于其丰富的方言变体和复杂的语言结构,使得仇恨言论识别尤为困难。为此,Hamad Bin Khalifa University和Northwestern University in Qatar的研究人员于2025年发布了《An Annotated Corpus of Arabic Tweets for Hate Speech Analysis》数据集,旨在填补阿拉伯语多标签仇恨言论数据集的空白。该数据集包含10,000条阿拉伯语推文,每条推文均标注了是否包含攻击性内容,并进一步细分为宗教、性别、政治、种族、出身等多个仇恨目标类别。数据集的构建采用了多位标注者参与的方式,标注者间一致性达到0.86(攻击性内容)和0.71(仇恨目标类别),并通过基于Transformer的模型(如AraBERTv2)验证了标注质量,其微F1分数为0.7865,准确率为0.786。这一数据集为阿拉伯语仇恨言论检测提供了重要的基础资源,推动了低资源语言和方言多样性环境下的自然语言处理研究。
当前挑战
该数据集在构建和应用过程中面临多重挑战。首先,阿拉伯语的方言多样性导致语言表达的复杂性,不同地区的方言差异显著,增加了仇恨言论识别的难度。其次,阿拉伯语社交媒体文本的高度非正式性,与现代标准阿拉伯语(MSA)存在较大差异,进一步加剧了自然语言处理任务的复杂性。此外,数据集的规模相对有限,且Twitter API的收费政策限制了数据的获取,影响了数据集的扩展性。在标注过程中,多标签分类的复杂性(如一条推文可能同时针对多个仇恨目标)也对标注一致性提出了较高要求。最后,模型在跨方言泛化能力上的表现仍有提升空间,如何更好地捕捉方言特征并提高检测精度是未来研究的关键方向。
常用场景
经典使用场景
该数据集在阿拉伯语社交媒体内容分析领域具有重要价值,尤其在仇恨言论检测方面。研究者利用这一标注语料库,可以训练和评估机器学习模型,以识别阿拉伯语推文中的仇恨言论和攻击性内容。数据集的多标签特性使其能够捕捉仇恨言论的多样性,包括针对宗教、性别、政治、种族等多个目标的攻击性内容。
解决学术问题
该数据集解决了阿拉伯语仇恨言论检测中的多个学术问题。首先,它填补了阿拉伯语多标签仇恨言论数据集的空白,为低资源语言的研究提供了重要支持。其次,通过标注多样化的方言内容,数据集帮助研究者克服阿拉伯语方言复杂性带来的挑战。此外,高标注一致性(IAA=0.86)确保了数据的可靠性,为模型训练提供了坚实基础。
衍生相关工作
该数据集已衍生出多项经典研究工作。研究者利用该数据集比较了AraBERTv2、CAMelBERT等预训练模型在阿拉伯语仇恨言论检测中的性能。相关成果发表在计算语言学顶级会议上,推动了阿拉伯语NLP领域的发展。数据集还被用于探索多标签分类、方言处理等NLP子领域的前沿问题。
以上内容由遇见数据集搜集并总结生成



