L-HSAB Dataset

github2024-04-05 更新2024-05-31 收录

下载链接：

https://github.com/Hala-Mulki/L-HSAB-First-Arabic-Levantine-HateSpeech-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

L-HSAB数据集是首个阿拉伯黎凡特地区的仇恨言论和辱骂语言数据集，包含5,846条叙利亚和黎巴嫩的政治推文，标记为正常、辱骂或仇恨。数据集收集了2018年3月至2019年2月期间的热点政治辩论推文，通过Twitter API抓取，并由3名黎凡特语标注者进行标注。

The L-HSAB dataset is the first hate speech and abusive language dataset for the Levantine Arabic region. It contains 5,846 political tweets from Syria and Lebanon, annotated as normal, abusive, or hateful. The dataset was collected from tweets about high-profile political debates between March 2018 and February 2019, retrieved via the Twitter API, and annotated by three Levantine Arabic annotators.

创建时间：

2019-07-11

原始信息汇总

数据集概述

名称: L-HSAB Dataset

描述: L-HSAB是首个阿拉伯语黎凡特地区的仇恨言论和辱骂语言数据集，由5,846条叙利亚/黎巴嫩政治推文组成，标记为正常、辱骂或仇恨。数据收集时间为2018年3月至2019年2月。

数据收集与资源

数据来源: 通过Twitter API（Tweepy）抓取的黎凡特地区推文。
查询关键词: 包括“اللاجئين”（难民）、"البنات"（女性）、“العرب”（阿拉伯人）、“الدروز”（德鲁兹人）等。
用户资源: 特定政治人物、社会/政治活动家和电视主持人的验证账户或拥有超过100k关注者的用户时间线。

数据标注指南

标注者: 3名黎凡特语标注者。
标注类别:
- 正常推文：无攻击性、侮辱性内容。
- 辱骂推文：包含攻击性、侮辱性内容。
- 仇恨推文：包含辱骂语言，针对特定个人或群体，基于其身份（种族、性别、宗教等）进行贬低或非人化。
特殊指南: 提供了在仇恨/辱骂语境中常用的政治党派、少数族裔和宗教团体的昵称。

标注评估

评估方法:
- 成对百分比协议度量（PRAM）：87.24%
- Cohens Kappa（K）：75.8%
- Krippendorff’s Alpha（α）：76.5%

分类实验

二元分类（正常、辱骂）：
- 最佳性能：Naive Bayes，F-measure为89.6%
多类别分类（正常、辱骂、仇恨）：
- 最佳性能：Naive Bayes，F-measure为74.4%

论文引用

@inproceedings{mulki2019hsab, title={L-HSAB: A Levantine Twitter Dataset for Hate Speech and Abusive Language}, author={Mulki, Hala and Haddad, Hatem and Ali, Chedi Bechikh and Alshabani, Halima}, booktitle={Proceedings of the Third Workshop on Abusive Language Online}, pages={111--118}, year={2019} }

搜集汇总

数据集介绍

构建方式

L-HSAB数据集的构建基于黎凡特地区（特别是叙利亚和黎巴嫩）的政治和社会背景，这些地区的在线讨论中常常充斥着仇恨言论和侮辱性语言。数据集通过Twitter API（Tweepy）抓取了2018年3月至2019年2月期间发布的5,846条政治相关推文。数据收集过程中，研究者使用了多个查询关键词，如“اللاجئين”（难民）、“البنات”（女性）等，以确保涵盖常见的仇恨和侮辱性语言目标。此外，数据集还从一些具有高影响力的政治人物、社会活动家和电视主持人的用户时间线中提取数据，以确保数据的多样性和代表性。

特点

L-HSAB数据集是首个专注于阿拉伯黎凡特地区的仇恨言论和侮辱性语言数据集，涵盖了正常、侮辱性和仇恨性三类标签。数据集的推文内容反映了黎凡特地区复杂的社会和政治环境，尤其是在叙利亚和黎巴嫩的背景下。数据集的标注过程由三位黎凡特语母语者完成，确保了标注的准确性和文化敏感性。通过多种评估方法（如Cohen's Kappa和Krippendorff’s Alpha），数据集的标注一致性得到了验证，显示出较高的可信度。此外，数据集在二元分类和多类分类任务中表现良好，尤其是朴素贝叶斯模型在二元分类中达到了89.6%的F1分数。

使用方法

L-HSAB数据集可用于研究阿拉伯黎凡特地区的在线仇恨言论和侮辱性语言，特别是在社交媒体环境下的语言使用模式。研究者可以利用该数据集进行二元分类（正常与侮辱性）或多类分类（正常、侮辱性与仇恨性）任务，以探索不同机器学习模型在识别仇恨言论和侮辱性语言中的表现。数据集的使用方法包括数据预处理、模型训练和评估等步骤。通过引用相关论文，研究者可以进一步了解数据集的构建背景和实验细节，从而更好地应用于自然语言处理和社会计算领域的研究。

背景与挑战

背景概述

L-HSAB数据集是首个专注于黎凡特阿拉伯语中的仇恨言论和侮辱性语言的数据集，由Hala Mulki等研究人员在2019年ACL会议期间举办的ALW-2019研讨会上提出。该数据集旨在应对叙利亚和黎巴嫩等黎凡特地区因政治和社会动荡而频繁出现的网络仇恨言论问题。L-HSAB包含了2018年3月至2019年2月间发布的5,846条叙利亚和黎巴嫩政治推文，标注为正常、侮辱性或仇恨言论三类。该数据集的构建为研究阿拉伯语社交媒体中的仇恨言论检测提供了重要的数据支持，推动了自然语言处理领域在特定语言和文化背景下的应用研究。

当前挑战

L-HSAB数据集在构建和应用过程中面临多重挑战。首先，仇恨言论和侮辱性语言的界定具有高度主观性，尤其是在多文化和多语言的背景下，如何确保标注的一致性和准确性成为关键问题。尽管通过多名黎凡特语母语者的标注和多种评估指标（如Cohen's Kappa和Krippendorff’s Alpha）进行验证，但标注过程中仍存在一定分歧。其次，数据集的构建依赖于特定政治和社会背景下的推文，这可能导致数据的时效性和泛化能力受限。此外，尽管Naive Bayes模型在二分类和多分类任务中表现优异，但如何进一步提升模型在复杂语境下的性能仍是未来研究的重点。

常用场景

经典使用场景

L-HSAB数据集主要用于阿拉伯黎凡特地区的仇恨言论和侮辱性语言的研究。该数据集通过收集叙利亚和黎巴嫩的政治推文，为研究人员提供了一个丰富的语料库，用于分析和识别在线讨论中的有害内容。特别是在政治和社会动荡的背景下，这些数据对于理解网络言论的负面影响具有重要意义。

解决学术问题

L-HSAB数据集解决了在阿拉伯黎凡特地区识别和分类仇恨言论及侮辱性语言的学术问题。通过提供详细的标注数据，研究人员可以开发更精确的自然语言处理模型，以自动检测和过滤这些有害内容。这不仅有助于提升社交媒体平台的内容管理能力，还为相关领域的学术研究提供了宝贵的数据支持。

衍生相关工作

L-HSAB数据集衍生了一系列相关研究，特别是在自然语言处理和社交媒体分析领域。基于该数据集，研究人员开发了多种分类模型，如朴素贝叶斯和支持向量机，用于自动检测仇恨言论和侮辱性语言。这些工作不仅推动了相关技术的发展，还为解决实际问题提供了有效的工具和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集