多语言攻击性语言和仇恨言论检测数据集

Name: 多语言攻击性语言和仇恨言论检测数据集
Creator: 卡诺巴耶罗大学计算机科学系
Published: 2024-06-04 17:58:29
License: 暂无描述

arXiv2024-06-04 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2406.02169v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究开发了一个针对Hausa, Yoruba和Igbo三种尼日利亚主要语言的攻击性语言和仇恨言论检测的多语言数据集。数据集包含从Twitter收集并由母语者手动标注的推文，旨在通过自然语言处理技术自动检测和移除社交媒体中的攻击性和仇恨内容。数据集的创建考虑了语言的多样性和文化背景，适用于解决社交媒体中的语言攻击和仇恨言论问题。

This study develops a multilingual dataset for offensive language and hate speech detection targeting three dominant Nigerian languages: Hausa, Yoruba, and Igbo. The dataset comprises tweets collected from Twitter and manually annotated by native speakers, aiming to automatically detect and eliminate offensive and hateful content on social media via natural language processing (NLP) technologies. The construction of the dataset takes into account linguistic diversity and cultural context, making it suitable for resolving issues related to linguistic attacks and hate speech on social media platforms.

提供机构：

卡诺巴耶罗大学计算机科学系

创建时间：

2024-06-04

搜集汇总

数据集介绍

构建方式

在社交媒体内容审核日益重要的背景下，针对尼日利亚主要语言中攻击性语言检测的数据稀缺问题，本研究构建了一个涵盖豪萨语、约鲁巴语和伊博语的多语言数据集。数据采集自推特平台，采用关键词策略进行定向爬取，通过众包方式收集并验证了各语言的攻击性和仇恨关键词。随后，对原始推文进行了去重、语言筛选及标准化预处理，如替换用户名、邮箱和链接。标注工作由各语言母语者执行，依据明确的标注指南将推文分类为攻击性、仇恨性或中性，并通过弗莱斯卡帕系数确保标注者间的一致性，最终形成了包含数千条标注数据的高质量语料库。

使用方法

该数据集主要用于训练和评估多语言攻击性语言及仇恨言论检测模型。研究人员可将其按语言划分为独立的子集，采用标准的训练-测试分割比例进行实验。在模型选择上，可借鉴论文中采用的预训练语言模型，如XLM-RoBERTa、多语言BERT或针对非洲语言优化的AfriBERTa，通过微调适配特定语言的语法与语义特征。特征提取可利用Hugging Face等框架的自动化工具处理文本编码。评估阶段应关注模型在各语言测试集上的分类准确率等指标，以分析模型在低资源语言上的泛化能力与局限性，进而推动更公平、有效的多语言内容审核技术发展。

背景与挑战

背景概述

随着社交媒体在全球范围内的普及，网络攻击性语言和仇恨言论的传播已成为亟待解决的严峻挑战。尤其在多语言环境中，针对低资源语言的检测研究相对匮乏。在此背景下，由Bayero University Kano的Saminu Mohammad Aliyu等人于近期创建的多语言攻击性语言和仇恨言论检测数据集应运而生，专注于尼日利亚三大主要语言：豪萨语、约鲁巴语和伊博语。该数据集通过从Twitter平台爬取数据，并聘请母语者进行人工标注，旨在填补相关领域的数据空白，推动针对非洲本土语言的自动化内容审核研究。其核心研究问题在于如何有效识别和理解这些低资源语言中的攻击性与仇恨内容，从而为构建包容、安全的网络环境提供技术支持，对促进全球多语言自然语言处理技术的公平发展具有重要影响力。

当前挑战

该数据集致力于解决多语言环境下攻击性语言与仇恨言论自动检测的领域挑战，具体包括低资源语言中语言特征的复杂性，如豪萨语、约鲁巴语和伊博语的声调系统、元音和谐及文化特定表达，这些因素使得模型难以准确捕捉语义和语境。此外，仇恨言论的定义具有高度主观性和文化依赖性，同一表述在不同社群中可能引发迥异的解读，这为标注一致性与模型泛化带来了显著困难。在构建过程中，研究团队面临数据收集与标注的双重挑战：一方面，Twitter上纯语言文本的获取需依赖精心设计的关键词策略，但可能引入样本偏差；另一方面，招募并培训合格的母语标注人员成本高昂，且需通过严格的内部标注者一致性评估（如Fleiss' kappa）以确保数据质量，而类别不平衡问题——仇恨类样本稀少——也可能影响后续模型的性能与鲁棒性。

常用场景

经典使用场景

在自然语言处理领域，针对低资源语言的攻击性内容检测一直是研究难点。该数据集通过收集豪萨语、约鲁巴语和伊博语这三种尼日利亚主要语言的推文，并经过人工标注，为多语言攻击性语言和仇恨言论检测提供了宝贵的资源。其经典使用场景在于为这些低资源语言构建基准模型，例如利用预训练语言模型如XLM-Roberta、BERT等进行微调，以评估模型在特定语言环境下的分类性能，从而推动跨语言内容审核技术的发展。

解决学术问题

该数据集有效解决了多语言环境下攻击性内容检测的数据稀缺问题。传统研究多集中于英语等高资源语言，而非洲语言往往缺乏高质量的标注数据。通过提供豪萨语、约鲁巴语和伊博语的专用数据集，它支持了低资源语言自然语言处理模型的开发与评估，促进了语言多样性在内容安全研究中的考量。其意义在于填补了相关领域的空白，为理解不同文化语境下的语言攻击模式提供了实证基础，推动了更具包容性的算法公平性研究。

实际应用

在实际应用中，该数据集可直接用于社交媒体平台的内容审核系统。例如，尼日利亚的在线社区可以利用基于此数据集训练的模型，自动识别并过滤以豪萨语、约鲁巴语或伊博语发布的攻击性或仇恨言论，从而减少网络暴力与社区冲突。此外，它也可为政府机构或非营利组织提供监测工具，以追踪和分析社交媒体上的有害言论趋势，辅助制定更有效的网络治理政策，维护数字空间的和谐与安全。

数据集最近研究