Multi Platforms Offensive Language Dataset (MPOLD)

github2023-12-16 更新2024-05-31 收录

下载链接：

https://github.com/shammur/Arabic-Offensive-Multi-Platform-SocialMedia-Comment-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从Twitter、Facebook和YouTube三个不同在线平台收集的阿拉伯语社交媒体评论，并进行了(非)攻击性语言标签的标注。此外，数据集还手动标注了仇恨言论(HS)和粗俗(但非仇恨)内容(V)的分布。

This dataset comprises Arabic social media comments collected from three distinct online platforms: Twitter, Facebook, and YouTube, annotated with labels indicating (non-)offensive language. Additionally, the dataset has been manually annotated to reflect the distribution of hate speech (HS) and vulgar (but non-hate) content (V).

创建时间：

2020-02-20

原始信息汇总

数据集概述

数据集名称

阿拉伯语攻击性多平台社交媒体评论数据集（Multi Platforms Offensive Language Dataset, MPOLD）

数据来源

数据集包含来自Twitter、Facebook和YouTube三个不同在线平台的阿拉伯语社交媒体评论。

数据内容

数据集包含标注为攻击性（OFF）或非攻击性（NOT_OFF）的评论，并进一步手动标注分析仇恨言论（HS）和粗俗（V）内容。

数据格式

数据集文件包含以下字段：

Id: 评论ID
Platform: 社交媒体平台（Twitter, Facebook, YouTube）
Comment: 评论内容（已匿名化处理）
Majority_Label: 多数标签（非攻击性或攻击性）
Agreement: 标注一致性（100%一致或多数投票）
NumOfJudgementUsed: 用于多数共识的标注者数量
Total_Judgement: 总标注次数
Vulgar:V/HateSpeech:HS/None:-: 进一步分类（粗俗、仇恨言论或仅攻击性）

标注指南和程序

使用Amazon Mechanical Turk进行数据标注，通过两种评估标准确保标注质量和语言熟练度。

数据集引用

@inproceedings{chowdhury2020offensive, title={A Multi-Platform Arabic News Comment Dataset for Offensive Language Detection}, author={Chowdhury, Shammur Absar and Mubarak, Hamdy and Abdelali, Ahmed and Jung, Soon-gyo and Jansen, Bernard J and Salminen, Joni}, booktitle={Proceedings of the International Conference on Language Resources and Evaluation (LREC20)}, year={2020} }

其他资源

数据集研究中还使用了其他阿拉伯语攻击性语言研究的数据集，包括埃及阿拉伯语方言数据和黎凡特仇恨言论和辱骂（L-HSAB）数据集。

搜集汇总

数据集介绍

构建方式

Multi Platforms Offensive Language Dataset (MPOLD) 的构建基于从Twitter、Facebook和YouTube三个社交媒体平台收集的阿拉伯语评论数据。为确保数据质量，研究团队通过Amazon Mechanical Turk (AMT)平台进行标注，并采用双重评估标准筛选标注者。标注过程中，每条评论由至少三名标注者进行标注，最终标签由多数投票决定。此外，前500条评论经过专家手动检查，以确保标注的准确性，标注准确率约为94%。

特点

MPOLD数据集的特点在于其多平台来源和精细的标注体系。数据集不仅包含二元分类标签（Offensive vs. Non-Offensive），还进一步对攻击性评论进行了细分，包括仇恨言论（Hate Speech, HS）和粗俗语言（Vulgar, V）。每条评论的标注结果还记录了标注者之间的共识度（Agreement）以及使用的标注数量（NumOfJudgementUsed），为研究者提供了丰富的元数据信息。此外，数据集还提供了专家标注的参考，进一步提升了数据的可靠性。

使用方法

MPOLD数据集的使用方法较为灵活，适用于多种自然语言处理任务，尤其是攻击性语言检测和仇恨言论分析。数据集以制表符分隔的文本文件形式提供，包含评论ID、来源平台、原始评论、多数标签、标注共识度等字段。研究者可以通过提供的Colab数据读取工具快速加载数据。此外，数据集还可与其他阿拉伯语攻击性语言数据集结合使用，以进行跨平台或跨领域的评估研究。使用该数据集时，需引用相关论文以尊重数据贡献者的工作。

背景与挑战

背景概述

Multi Platforms Offensive Language Dataset (MPOLD) 是由Shammur Absar Chowdhury等研究人员于2020年创建的一个多平台阿拉伯语社交媒体评论数据集，旨在解决阿拉伯语社交媒体中冒犯性语言的检测问题。该数据集收集自Twitter、Facebook和YouTube三个平台的评论，并通过人工标注对冒犯性语言进行分类，涵盖了非冒犯性（NOT_OFF）与冒犯性（OFF）两类标签，并进一步细分为仇恨言论（HS）和粗俗语言（V）。MPOLD的发布为阿拉伯语自然语言处理领域提供了重要的数据支持，尤其是在冒犯性语言检测和仇恨言论分析方面，推动了相关研究的发展。

当前挑战

MPOLD数据集在构建和应用过程中面临多重挑战。首先，冒犯性语言的界定具有主观性，不同文化背景和语境下的冒犯性表达差异显著，这为标注工作带来了复杂性。其次，数据集的构建依赖于众包平台Amazon Mechanical Turk（AMT），尽管通过双重评估标准确保了标注质量，但仍存在标注一致性和准确性问题，尤其是在处理阿拉伯语方言和复杂语境时。此外，社交媒体评论的多样性和动态性使得数据集的泛化能力受到限制，跨平台和跨领域的迁移学习效果仍需进一步验证。这些挑战不仅影响了数据集的构建质量，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

Multi Platforms Offensive Language Dataset (MPOLD) 数据集在自然语言处理领域中被广泛用于检测和分析阿拉伯语社交媒体评论中的冒犯性语言。该数据集涵盖了来自Twitter、Facebook和YouTube三大平台的评论数据，并提供了详细的注释标签，包括冒犯性语言、仇恨言论和粗俗内容的分类。研究人员可以利用该数据集训练和评估机器学习模型，以提高自动检测冒犯性语言的准确性和鲁棒性。

衍生相关工作

MPOLD数据集催生了一系列相关研究，特别是在阿拉伯语冒犯性语言检测领域。例如，基于该数据集的研究工作进一步探索了跨平台冒犯性语言的差异，以及如何结合其他阿拉伯语数据集（如埃及阿拉伯方言数据和黎凡特仇恨言论数据集）来提高模型的泛化能力。这些研究不仅扩展了MPOLD的应用范围，还为多语言冒犯性语言检测提供了新的思路和方法。

数据集最近研究