T-HSAB-A Tunisian Hate Speech and Abusive Dataset

github2024-04-01 更新2024-05-31 收录

下载链接：

https://github.com/Hala-Mulki/T-HSAB-A-Tunisian-Hate-Speech-and-Abusive-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

T-HSAB是首个针对突尼斯地区的仇恨言论和辱骂语言数据集，由6024条突尼斯评论组成，这些评论被标记为正常、辱骂或仇恨。数据集收集了2018年10月至2019年3月期间发布的推文，旨在研究社交媒体中的毒性内容。

T-HSAB is the first dataset targeting hate speech and abusive language in the Tunisian region, comprising 6,024 Tunisian comments labeled as normal, abusive, or hateful. The dataset collected tweets published between October 2018 and March 2019, aiming to study toxic content on social media.

创建时间：

2019-10-02

原始信息汇总

T-HSAB-A Tunisian Hate Speech and Abusive Dataset

概述

数据集名称: T-HSAB-A Tunisian Hate Speech and Abusive Dataset
首次提出: 2019年10月16-17日，第7届国际阿拉伯语言处理会议，法国南锡
数据集内容: 包含6,024条突尼斯语评论，标记为正常、辱骂或仇恨言论
数据收集时间: 2018年10月至2019年3月

数据收集与资源

数据来源: 从Facebook和YouTube上抓取的突尼斯语评论
收集依据: 基于多个查询，涉及通常被辱骂/仇恨言论针对的实体，如“اليهود”（犹太人）、"الأفارقة"（非洲人）、“المساواة في الميراث”（继承中的性别平等）等

数据标注指南

标注者: 3名突尼斯语母语者
标注类别:
- 正常：无攻击性、侮辱性或亵渎内容
- 辱骂：包含攻击性、侮辱性或亵渎内容
- 仇恨：包含辱骂语言，针对特定个人或群体，基于其描述性身份（种族、性别、宗教、残疾、肤色、信仰）进行贬低或非人化

标注评估

评估方法:
- Pairwise Percent Agreement Measure (PRAM): 97.9%
- Cohens Kappa (K): 96.1%
- Krippendorff’s Alpha (α): 75%

分类实验

二分类（正常、辱骂）:
- 最佳模型: Naive Bayes
- F-measure: 92.3%
多类别分类（正常、辱骂、仇恨）:
- 最佳模型: Naive Bayes
- F-measure: 83.6%

论文引用

Haddad H., Mulki H., Oueslati A. (2019) T-HSAB: A Tunisian Hate Speech and Abusive Dataset. In: Smaïli K. (eds) Arabic Language Processing: From Theory to Practice. ICALP 2019. Communications in Computer and Information Science, vol 1108. Springer, Cham

搜集汇总

数据集介绍

构建方式

T-HSAB-A数据集作为首个突尼斯阿拉伯语仇恨言论与侮辱性语言数据集，其构建过程始于2018年10月至2019年3月间，从Facebook和YouTube平台上抓取的突尼斯用户评论。数据收集基于多个查询，这些查询针对通常遭受仇恨言论或侮辱性语言攻击的实体，如犹太人、非洲人及性别平等等话题。随后，由三位突尼斯语母语者进行标注，标注类别包括正常、侮辱性和仇恨言论三类，确保数据的多样性和代表性。

特点

T-HSAB-A数据集包含6,024条突尼斯用户评论，每条评论均被精确标注为正常、侮辱性或仇恨言论。该数据集的特点在于其针对突尼斯社会背景下的特定群体和话题，如种族、性别、宗教等，提供了丰富的语境信息。此外，标注过程通过多种评估方法确保了高可信度，如Pairwise Percent Agreement Measure（PRAM）达到97.9%，Cohen's Kappa（K）为96.1%，Krippendorff’s Alpha（α）为75%，进一步增强了数据的可靠性。

使用方法

T-HSAB-A数据集适用于自然语言处理领域的研究，特别是在仇恨言论和侮辱性语言的检测与分类任务中。研究者可利用该数据集进行二元分类（正常与侮辱性）或多类分类（正常、侮辱性与仇恨言论）实验。实验结果表明，Naive Bayes算法在二元分类任务中表现最佳，F-measure达到92.3%；在多类分类任务中，其F-measure为83.6%。该数据集为突尼斯社会背景下的语言研究提供了宝贵的资源，同时也为跨文化语言处理研究提供了新的视角。

背景与挑战

背景概述

T-HSAB-A Tunisian Hate Speech and Abusive Dataset是首个针对突尼斯阿拉伯语的仇恨言论和侮辱性语言数据集，由Haddad H.、Mulki H.和Oueslati A.等研究人员在2019年10月16日至17日于法国南锡举行的第七届阿拉伯语言处理国际会议（ICALP 2019）上提出。自2011年“茉莉花革命”以来，突尼斯进入了言论自由的新时代，社交媒体上的言论自由度大幅提升，但同时也伴随着仇恨言论和侮辱性内容的泛滥。T-HSAB数据集包含了2018年10月至2019年3月期间发布的6,024条突尼斯评论，标注为正常、侮辱性或仇恨言论。该数据集的构建旨在为突尼斯社交媒体上的仇恨言论和侮辱性语言研究提供基础数据，推动相关领域的研究进展。

当前挑战

T-HSAB数据集在构建和应用过程中面临多重挑战。首先，仇恨言论和侮辱性语言的界定具有高度主观性，尤其是在跨文化背景下，突尼斯阿拉伯语中的特定表达方式可能难以被非母语者准确理解。其次，数据收集过程中，研究人员需要从Facebook和YouTube等平台抓取评论，并基于特定查询词（如“犹太人”、“非洲人”等）筛选内容，这一过程不仅耗时，还可能受到平台隐私政策的限制。此外，数据标注的准确性依赖于标注者的主观判断，尽管通过多种评估方法（如Cohen's Kappa和Krippendorff’s Alpha）验证了标注的一致性，但仍存在一定的不确定性。最后，尽管Naive Bayes模型在二元和多类分类任务中表现优异，但如何进一步提升模型在复杂语境下的分类性能，仍是未来研究的重要方向。

常用场景

经典使用场景

T-HSAB数据集在自然语言处理领域中被广泛用于阿拉伯语仇恨言论和侮辱性语言的检测研究。该数据集通过提供标注为正常、侮辱或仇恨的突尼斯社交媒体评论，为研究人员提供了一个宝贵的资源，用于开发和评估分类模型。特别是在多语言和低资源语言环境中，T-HSAB数据集为阿拉伯语文本的情感分析和内容过滤提供了重要的实验基础。

解决学术问题

T-HSAB数据集解决了在阿拉伯语环境中识别和分类仇恨言论及侮辱性语言的学术难题。通过提供高质量的标注数据，研究人员能够更准确地训练和验证机器学习模型，从而提升分类性能。该数据集的存在填补了阿拉伯语仇恨言论检测领域的空白，为相关研究提供了可靠的数据支持，推动了该领域的技术进步。

衍生相关工作

T-HSAB数据集催生了一系列相关研究，特别是在阿拉伯语自然语言处理领域。基于该数据集，研究人员开发了多种分类算法，如朴素贝叶斯和支持向量机，并取得了显著的分类效果。此外，该数据集还激发了跨语言仇恨言论检测的研究，推动了多语言环境下内容审核技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集