Amharic Hate Speech Dataset

github2024-05-14 更新2024-05-31 收录

下载链接：

https://github.com/uhh-lt/AmharicHateSpeech

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于检测和分类阿姆哈拉语中的仇恨言论。

This dataset is designed for the detection and classification of hate speech in Amharic.

创建时间：

2023-07-29

原始信息汇总

数据集概述

本数据集详情页面提供了四个关于阿姆哈拉语仇恨言论检测和分类模型的数据集：

RANLP-2023数据集
- 位置：Data/RANLP2023
ICT4DA-2022数据集
- 位置：Data/ICT4DA
TRAC-LREC-COLLING-2024 仇恨目标与强度数据集
- 位置：Data/Trac-HateIntensity
TRAC-LREC-COLLING-2024 HateMem数据集
- 位置：Data/HateMem

此外，HateMem数据集的代码可在此处获取：Code/HateMem。

搜集汇总

数据集介绍

构建方式

该数据集的构建主要通过多模态分析和众包平台进行。具体而言，研究团队利用Toloka众包平台对阿姆哈拉语的仇恨言论数据进行标注，结合社交媒体上的多模态内容（如表情包）进行分析，从而构建了多个针对阿姆哈拉语仇恨言论检测和分类的数据集。这些数据集涵盖了不同的时间段和研究背景，如RANLP-2023、ICT4DA-2022、TRAC-LREC-COLLING-2024等，确保了数据的多样性和广泛性。

使用方法

该数据集可用于阿姆哈拉语仇恨言论的检测和分类任务。用户可以通过Huggingface平台直接访问数据集，并结合提供的代码进行模型训练和评估。数据集的多样性和多模态特性使其适用于多种自然语言处理任务，如文本分类、情感分析和多模态学习。此外，研究者还可以参考相关论文，深入了解数据集的构建过程和应用场景。

背景与挑战

背景概述

阿姆哈拉语仇恨言论数据集（Amharic Hate Speech Dataset）是由Abinew Ali Ayele、Seid Muhie Yimam、Chris Biemann等研究人员在多个国际会议和研讨会上提出的，旨在解决阿姆哈拉语社交媒体中仇恨言论的检测与分类问题。该数据集的创建始于2022年，通过使用Toloka众包平台进行数据标注，涵盖了多个子数据集，如RANLP-2023、ICT4DA-2022、TRAC-LREC-COLLING-2024等。这些数据集不仅为阿姆哈拉语的仇恨言论研究提供了丰富的资源，还为多模态分析和社交媒体内容管理提供了新的视角。

当前挑战

阿姆哈拉语仇恨言论数据集的构建面临多重挑战。首先，阿姆哈拉语作为一种资源相对匮乏的语言，其自然语言处理工具和资源的缺乏增加了数据标注和模型训练的难度。其次，仇恨言论的定义和边界在不同文化和语境中存在差异，导致数据标注的一致性和准确性难以保证。此外，多模态数据（如社交媒体中的表情包）的处理和分析进一步增加了技术复杂性。最后，众包平台的使用虽然提高了数据收集的效率，但也带来了标注质量控制和数据隐私保护的问题。

常用场景

经典使用场景

Amharic Hate Speech Dataset 的经典使用场景主要集中在针对阿姆哈拉语社交媒体内容的仇恨言论检测与分类。该数据集通过提供多样的标注数据，支持研究人员和开发者构建高效的仇恨言论识别模型。其核心应用在于通过自然语言处理技术，自动识别和分类社交媒体中的仇恨言论，从而为内容审核和社区管理提供技术支持。

解决学术问题

该数据集解决了阿姆哈拉语仇恨言论检测中的关键学术问题，包括数据稀缺性、多模态分析的复杂性以及跨文化语境下的语言理解挑战。通过提供高质量的标注数据，它为研究者提供了丰富的资源，推动了多语言环境下仇恨言论检测技术的发展，具有重要的学术价值和实际意义。

实际应用

在实际应用中，Amharic Hate Speech Dataset 被广泛用于社交媒体平台的自动化内容审核系统。通过训练模型识别和过滤仇恨言论，平台能够有效减少有害内容的传播，维护社区的健康环境。此外，该数据集还支持政府和非政府组织在公共政策制定和舆论监控中的应用，助力社会和谐与稳定。

数据集最近研究