Multi Platforms Offensive Language Dataset (MPOLD)
收藏数据集概述
数据集名称
阿拉伯语攻击性多平台社交媒体评论数据集(Multi Platforms Offensive Language Dataset, MPOLD)
数据集内容
该数据集包含从Twitter、Facebook和YouTube三个不同社交媒体平台收集的阿拉伯语社交评论,并进行了攻击性(OFF)与非攻击性(NOT_OFF)的标注。此外,数据集还对攻击性评论进行了进一步的手动标注,分析了仇恨言论(HS)和粗俗(V)内容的分布。
数据集格式
数据集文件包含以下字段(以制表符分隔):
Id: 评论IDPlatform: 评论来源平台(Twitter、Facebook、YouTube)Comment: 原始评论(已匿名化UserID和部分URL)Majority_Label: 二元标签(非攻击性或攻击性)Agreement: 标注者间的一致性(100%一致或多数投票)NumOfJudgementUsed: 用于多数共识的标注者数量Total_Judgement: 从MTurk获得的总标注数Vulgar:V/HateSpeech:HS/None:-: 进一步分类(由专家进行),指示评论是否为仇恨言论、粗俗或仅攻击性。
标注指南与流程
数据集的标注通过Amazon Mechanical Turk (AMT)进行,使用两种不同的评估标准以确保标注质量和语言能力。详细指南可在annotation_guideline文件夹中找到。
引用信息
在使用本数据集时,请引用以下文献:
@inproceedings{chowdhury2020offensive, title={A Multi-Platform Arabic News Comment Dataset for Offensive Language Detection}, author={Chowdhury, Shammur Absar and Mubarak, Hamdy and Abdelali, Ahmed and Jung, Soon-gyo and Jansen, Bernard J and Salminen, Joni}, booktitle={Proceedings of the International Conference on Language Resources and Evaluation (LREC20)}, year={2020} }




