five

L-HSAB

收藏
github2021-12-08 更新2024-05-31 收录
下载链接:
https://github.com/mohamedScikitLearn/L-HSAB-First-Arabic-Levantine-HateSpeech-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
L-HSAB是首个阿拉伯语黎凡特地区的仇恨言论和辱骂语言数据集,包含5,846条来自叙利亚和黎巴嫩的政治推文,标记为正常、辱骂或仇恨。数据集通过Twitter API收集,重点关注政治敏感话题,如难民、女性、阿拉伯人等,并由三名黎凡特语标注者进行标注。

L-HSAB is the first dataset of hate speech and abusive language in the Levantine Arabic dialect, comprising 5,846 political tweets from Syria and Lebanon, labeled as normal, abusive, or hateful. The dataset was collected via the Twitter API, focusing on politically sensitive topics such as refugees, women, and Arabs, and was annotated by three native Levantine Arabic speakers.
创建时间:
2020-05-14
原始信息汇总

L-HSAB Dataset Summary

Dataset Overview

  • Name: L-HSAB (Levantine Hate Speech and Abusive) Dataset
  • Description: The first Arabic Levantine Hate Speech and Abusive Language Dataset, proposed in the 3rd Workshop ALW-2019 co-located with ACL-2019.
  • Content: 5,846 Syrian/Lebanese political tweets labeled as normal, abusive, or hate.
  • Timeframe: Tweets collected between March 2018 and February 2019.

Data Collection

  • Method: Tweets scraped via Twitter API (Tweepy) using keywords related to potential targets of abusive/hate speech.
  • Sources: User timelines of verified or high-follower count politicians, activists, and TV anchors.

Data Annotation

  • Annotators: 3 Levantine-speaking annotators.
  • Categories:
    • Normal: No offensive content.
    • Abusive: Contains offensive, aggressive, insulting, or profanity content.
    • Hate: Contains abusive language directed at a specific person or group, demeaning or dehumanizing based on identity.
  • Guidelines: Provided with nicknames used in hate/abusive contexts for political parties and groups.

Annotation Evaluation

  • Measures:
    • Pairwise Percent Agreement Measure (PRAM): 87.24%
    • Cohens Kappa (K): 75.8%
    • Krippendorff’s Alpha (α): 76.5%

Classification Experiments

  • Binary Classification (Normal, Abusive):
    • Best model: Naive Bayes
    • F-measure: 89.6%
  • Multi-Class Classification (Normal, Abusive, Hate):
    • Best model: Naive Bayes
    • F-measure: 74.4%

Paper Citation

@inproceedings{mulki2019hsab, title={L-HSAB: A Levantine Twitter Dataset for Hate Speech and Abusive Language}, author={Mulki, Hala and Haddad, Hatem and Ali, Chedi Bechikh and Alshabani, Halima}, booktitle={Proceedings of the Third Workshop on Abusive Language Online}, pages={111--118}, year={2019} }

搜集汇总
数据集介绍
main_image_url
构建方式
L-HSAB数据集的构建始于对黎凡特地区(特别是叙利亚和黎巴嫩)政治和社会氛围的深入观察,这些地区因频繁的政治辩论而产生了大量包含仇恨言论和侮辱性语言的推文。通过Twitter API(Tweepy)收集了5846条推文,这些推文主要围绕特定实体如“难民”、“女性”、“阿拉伯人”等展开。数据来源包括具有高影响力的政治家、社会活动家和电视主持人的时间线,确保了数据的代表性和丰富性。
特点
L-HSAB数据集的特点在于其专注于黎凡特地区的阿拉伯语推文,涵盖了正常、侮辱性和仇恨言论三类标签。数据集中的推文经过三名黎凡特语母语者的严格标注,确保了标签的准确性和一致性。通过多种评估方法,如配对一致性百分比、Cohen's Kappa和Krippendorff’s Alpha,验证了标注的高可信度。此外,数据集还提供了详细的分类实验,展示了在二元和多元分类任务中的性能表现。
使用方法
L-HSAB数据集的使用方法主要包括数据加载、预处理和模型训练。用户可以通过提供的API或直接下载数据集文件来获取数据。在预处理阶段,建议对推文进行清洗和标准化处理,以去除噪声并提高模型训练的效果。数据集适用于多种机器学习模型,特别是文本分类任务。通过参考提供的分类实验结果,用户可以选择合适的模型进行训练和评估,如朴素贝叶斯分类器在二元和多元分类任务中均表现出色。
背景与挑战
背景概述
L-HSAB数据集是首个专注于阿拉伯黎凡特地区的仇恨言论和侮辱性语言的数据集,由Hala Mulki等研究人员在2019年ACL会议期间的ALW-2019研讨会上提出。该数据集包含5846条叙利亚和黎巴嫩的政治推文,标注为正常、侮辱性或仇恨言论。这些推文采集于2018年3月至2019年2月之间,反映了黎凡特地区在动荡政治和社会环境下的在线讨论内容。L-HSAB的创建旨在为研究阿拉伯语中的仇恨言论和侮辱性语言提供高质量的数据支持,特别是在涉及难民、女性、阿拉伯人、德鲁兹人等敏感话题时。该数据集对自然语言处理领域,尤其是社交媒体文本分析,具有重要的研究价值。
当前挑战
L-HSAB数据集在构建和应用过程中面临多重挑战。首先,数据采集的挑战在于如何从复杂的社交媒体环境中筛选出具有代表性的黎凡特地区推文,同时避免噪声数据的干扰。研究人员通过Twitter API采集数据,并针对特定实体(如难民、女性等)设计查询语句,但仍需依赖高影响力用户的推文以确保数据的相关性和质量。其次,数据标注的挑战在于如何准确区分正常、侮辱性和仇恨言论。尽管采用了三名黎凡特语母语者进行标注,并通过多种评估指标(如PRAM、Cohen's Kappa和Krippendorff’s Alpha)验证标注一致性,但仇恨言论的复杂性和文化背景的多样性仍可能导致标注偏差。此外,在分类实验中,尽管朴素贝叶斯模型在二分类和多分类任务中表现最佳,但仇恨言论的识别准确率仍有提升空间,表明模型在处理语义复杂性和文化敏感性方面存在局限性。
常用场景
经典使用场景
L-HSAB数据集在阿拉伯语社交媒体内容分析领域具有重要应用,特别是在叙利亚和黎巴嫩地区的政治和社会讨论中。该数据集通过收集和标注5846条政治推文,涵盖了正常、辱骂和仇恨言论三类内容,为研究阿拉伯语社交媒体中的仇恨言论和辱骂语言提供了丰富的数据资源。
实际应用
在实际应用中,L-HSAB数据集被广泛用于社交媒体平台的自动化内容审核系统。通过训练基于该数据集的机器学习模型,平台能够更有效地识别和过滤仇恨言论和辱骂内容,从而维护健康的在线讨论环境。此外,该数据集还被用于政策制定者和社会活动家的研究中,帮助他们理解社交媒体中的有害言论模式及其影响。
衍生相关工作
L-HSAB数据集催生了一系列相关研究,特别是在阿拉伯语自然语言处理领域。基于该数据集的研究工作包括改进的文本分类算法、多语言仇恨言论检测模型以及社交媒体内容分析工具的开发。这些研究不仅推动了阿拉伯语NLP技术的发展,还为其他语言和文化的类似研究提供了宝贵的参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作