Multi Platforms Offensive Language Dataset (MPOLD)

github2020-06-06 更新2024-05-31 收录

下载链接：

https://github.com/SalamThabet/Arabic-Offensive-Multi-Platform-SocialMedia-Comment-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自Twitter、Facebook和YouTube的阿拉伯语社交媒体评论，这些评论被标注为攻击性或非攻击性语言。数据集还进一步分类了仇恨言论和粗俗内容。

This dataset comprises Arabic social media comments sourced from Twitter, Facebook, and YouTube, which have been annotated as either offensive or non-offensive language. Additionally, the dataset further categorizes hate speech and vulgar content.

创建时间：

2020-06-06

原始信息汇总

数据集概述

数据集名称

阿拉伯语攻击性多平台社交媒体评论数据集（Multi Platforms Offensive Language Dataset, MPOLD）

数据集内容

该数据集包含从Twitter、Facebook和YouTube三个不同社交媒体平台收集的阿拉伯语社交评论，并进行了攻击性（OFF）与非攻击性（NOT_OFF）的标注。此外，数据集还对攻击性评论进行了进一步的手动标注，分析了仇恨言论（HS）和粗俗（V）内容的分布。

数据集格式

数据集文件包含以下字段（以制表符分隔）：

Id: 评论ID
Platform: 评论来源平台（Twitter、Facebook、YouTube）
Comment: 原始评论（已匿名化UserID和部分URL）
Majority_Label: 二元标签（非攻击性或攻击性）
Agreement: 标注者间的一致性（100%一致或多数投票）
NumOfJudgementUsed: 用于多数共识的标注者数量
Total_Judgement: 从MTurk获得的总标注数
Vulgar:V/HateSpeech:HS/None:-: 进一步分类（由专家进行），指示评论是否为仇恨言论、粗俗或仅攻击性。

标注指南与流程

数据集的标注通过Amazon Mechanical Turk (AMT)进行，使用两种不同的评估标准以确保标注质量和语言能力。详细指南可在annotation_guideline文件夹中找到。

引用信息

在使用本数据集时，请引用以下文献：

@inproceedings{chowdhury2020offensive, title={A Multi-Platform Arabic News Comment Dataset for Offensive Language Detection}, author={Chowdhury, Shammur Absar and Mubarak, Hamdy and Abdelali, Ahmed and Jung, Soon-gyo and Jansen, Bernard J and Salminen, Joni}, booktitle={Proceedings of the International Conference on Language Resources and Evaluation (LREC20)}, year={2020} }

搜集汇总

数据集介绍

构建方式

Multi Platforms Offensive Language Dataset (MPOLD) 的构建过程基于从Twitter、Facebook和YouTube三个社交媒体平台收集的阿拉伯语评论数据。为确保数据质量，研究团队通过Amazon Mechanical Turk (AMT)平台进行标注，并采用双重评估标准以确保标注者的语言熟练度和标注准确性。标注过程中，每条评论由至少三名标注者进行标注，最终标签由至少两名标注者达成一致确定。此外，前500条评论经过专家手动检查，标注准确率约为94%。

使用方法

MPOLD数据集的使用方法较为灵活，适用于多种自然语言处理任务，尤其是冒犯性语言检测和仇恨言论分析。研究者可以通过数据集中的`<Id>`、`<Platform>`、`<Comment>`、`<Majority_Label>`等字段进行数据筛选和分析。此外，数据集还可与其他阿拉伯语冒犯性语言数据集结合使用，以进行跨平台或跨领域的评估。使用该数据集时，建议引用相关论文以确保学术规范性。

背景与挑战

背景概述

Multi Platforms Offensive Language Dataset (MPOLD) 是由Shammur Absar Chowdhury等人于2020年发布的一个专注于阿拉伯语社交媒体评论中攻击性语言检测的数据集。该数据集收集自Twitter、Facebook和YouTube三大平台，涵盖了攻击性与非攻击性评论的标注，并进一步细分为仇恨言论（HS）和粗俗语言（V）。MPOLD的发布旨在为阿拉伯语自然语言处理领域提供高质量的数据支持，特别是在攻击性语言检测和仇恨言论分析方面。该数据集在LREC 2020会议上首次亮相，成为阿拉伯语社交媒体内容分析的重要资源之一，推动了相关领域的研究进展。

当前挑战

MPOLD数据集在构建和应用过程中面临多重挑战。首先，攻击性语言的界定具有高度主观性，尤其是在跨文化和跨语言背景下，如何确保标注的一致性和准确性成为核心难题。其次，数据收集过程中，社交媒体平台的内容多样性和动态变化性增加了数据清洗和预处理的复杂性。此外，尽管通过Amazon Mechanical Turk进行标注，并采用多数投票机制确保标注质量，但不同标注者的语言理解能力和文化背景差异仍可能导致标注偏差。最后，阿拉伯语的方言多样性和语言复杂性进一步增加了数据集的构建难度，尤其是在处理不同地区的社交媒体内容时，如何保持数据的代表性和普适性成为关键挑战。

常用场景

经典使用场景

Multi Platforms Offensive Language Dataset (MPOLD) 数据集在自然语言处理领域中被广泛用于阿拉伯语社交媒体评论的冒犯性语言检测。该数据集涵盖了来自Twitter、Facebook和YouTube三大平台的阿拉伯语评论，标注了冒犯性（OFF）与非冒犯性（NOT_OFF）标签，并进一步细分为仇恨言论（HS）和粗俗语言（V）。研究人员利用该数据集训练和评估机器学习模型，以自动识别和分类社交媒体中的不当言论。

解决学术问题

MPOLD 数据集解决了阿拉伯语社交媒体中冒犯性语言检测的难题。通过提供多平台、多类型的标注数据，该数据集为研究者提供了丰富的语料库，用于开发更精准的冒犯性语言检测算法。其标注的高准确率（约94%）确保了数据的可靠性，推动了阿拉伯语自然语言处理领域的发展，特别是在跨平台冒犯性语言检测和仇恨言论分析方面。

实际应用

在实际应用中，MPOLD 数据集被用于构建社交媒体内容审核系统，帮助平台自动过滤和屏蔽不当言论。例如，社交媒体公司可以利用该数据集训练模型，实时监控用户评论，减少仇恨言论和粗俗内容的传播。此外，该数据集还可用于跨文化研究，分析不同平台和地区的冒犯性语言使用模式，为政策制定提供数据支持。

数据集最近研究