AfriHate
收藏arXiv2025-01-15 更新2025-01-16 收录
下载链接:
https://github.com/AfriHate/AfriHate
下载链接
链接失效反馈官方服务:
资源简介:
AfriHate数据集是一个涵盖15种非洲语言的仇恨言论和侮辱性语言的多语言数据集,由多个非洲大学和研究机构合作创建。该数据集包含来自2012年至2023年的推文,每条推文均由熟悉当地文化的母语者进行标注,标注类别包括仇恨、侮辱/冒犯或中性。数据集的内容涉及种族、政治、性别、宗教等多个领域,旨在为研究社区提供高质量的数据基础,帮助开发针对非洲语言的仇恨言论检测工具。数据集的创建过程包括数据收集、预处理、语言识别和标注等步骤,特别关注了非洲语言的特殊性和文化背景。该数据集的应用领域包括自然语言处理、社交媒体内容审核以及非洲语言研究。
The AfriHate dataset is a multilingual dataset encompassing hate speech and offensive language in 15 African languages, collaboratively created by multiple African universities and research institutions. The dataset includes tweets from 2012 to 2023, with each tweet annotated by native speakers familiar with the local culture. The annotation categories include hate, offense/offensive, or neutral. The content of the dataset spans multiple domains such as race, politics, gender, and religion, aiming to provide the research community with a high-quality data foundation to develop hate speech detection tools for African languages. The creation process of the dataset includes data collection, preprocessing, language identification, and annotation, with a particular focus on the uniqueness and cultural context of African languages. The application areas of the dataset include natural language processing, social media content moderation, and research on African languages.
提供机构:
伦敦帝国理工学院, 巴伊罗大学卡诺分校, 比勒陀利亚大学, 巴希尔达尔大学, 麦吉尔大学, 东北大学, 马塞诺大学, 数字乌姆甘达, 豪萨NLP, 哈拉马亚大学, 阿卡韦恩大学, 乌普萨拉大学, 伊斯坦布尔技术大学, SADiLaR, 德乌斯托大学, 独立研究员, 墨西哥国立理工学院, 亚的斯亚贝巴大学, 兰卡斯特大学, 博科尼大学, 汉堡大学, 卡迪夫大学, 沃洛大学
创建时间:
2025-01-15
搜集汇总
数据集介绍

构建方式
AfriHate数据集的构建过程涉及多语言社交媒体数据的收集与标注。首先,研究人员通过Twitter Academic API收集了2012年至2023年间15种非洲语言的推文,涵盖了阿尔及利亚阿拉伯语、阿姆哈拉语、豪萨语、伊博语等多种语言。为了确保数据的多样性和代表性,研究团队采用了基于关键词、用户账号、地理位置等多种启发式方法进行数据筛选。此外,针对部分语言,如尼日利亚皮钦语和豪萨语,研究团队还通过众包关键词、手动数据收集以及利用现有数据集的方式补充了数据。所有推文均由熟悉当地文化的母语者进行标注,确保了对语言和文化背景的准确理解。
特点
AfriHate数据集包含了15种非洲语言的社交媒体推文,涵盖了仇恨言论、侮辱性语言以及中性内容三大类别。每个推文都被标注为仇恨、侮辱或中性,并且仇恨言论的推文进一步标注了其针对的目标,如种族、政治、性别、宗教等。数据集的独特之处在于其多语言性和文化敏感性,尤其是在低资源语言上的覆盖。此外,数据集的构建过程中充分考虑了非洲地区的语言多样性和社会文化背景,确保了数据的代表性和实用性。
使用方法
AfriHate数据集可用于多种自然语言处理任务,尤其是仇恨言论和侮辱性语言的检测。研究人员可以通过该数据集训练和评估多语言模型,特别是在低资源语言上的表现。数据集的使用方法包括但不限于:1)基于BERT等预训练语言模型的微调;2)使用SetFit进行少样本学习;3)通过提示工程(Prompting)在零样本或少样本设置下使用大语言模型(LLMs)。此外,数据集还可用于研究不同语言和文化背景下的仇恨言论特征,帮助开发更具包容性和文化敏感性的内容审核工具。
背景与挑战
背景概述
AfriHate数据集是一个多语言的仇恨言论和侮辱性语言数据集,涵盖了15种非洲语言,旨在解决全球南方地区在仇恨言论检测和内容审核方面的数据匮乏问题。该数据集由多个研究机构和学者共同创建,包括伦敦帝国理工学院、比勒陀利亚大学、麦吉尔大学等。数据集的核心研究问题是通过本地化的数据收集和标注,提升对非洲语言中仇恨言论的检测能力。AfriHate的创建时间为2025年,其影响力主要体现在为低资源语言的自然语言处理研究提供了宝贵的数据支持,尤其是在仇恨言论检测领域。
当前挑战
AfriHate数据集面临的挑战主要包括两个方面。首先,仇恨言论的检测高度依赖于社会文化背景,不同语言和地区的仇恨言论表现形式差异较大,导致模型的泛化能力受限。其次,数据集的构建过程中遇到了语言多样性带来的挑战,尤其是在非洲语言中常见的代码混合和多脚本书写现象,增加了数据收集和标注的复杂性。此外,由于缺乏高质量的本地语言数据,数据集的构建依赖于关键词和用户账户的筛选,这可能导致数据偏差和标注不一致的问题。
常用场景
经典使用场景
AfriHate数据集主要用于多语言仇恨言论和侮辱性语言的检测与分类研究。该数据集涵盖了15种非洲语言,每个实例均由熟悉当地文化的母语者进行标注,确保了数据的文化相关性和准确性。研究者可以利用该数据集开发多语言模型,以识别和分类社交媒体上的仇恨言论和侮辱性内容,特别是在非洲语言资源匮乏的背景下,AfriHate为相关研究提供了宝贵的基础。
解决学术问题
AfriHate数据集解决了非洲语言在仇恨言论检测领域的数据稀缺问题。由于非洲语言的多样性和复杂性,现有的仇恨言论检测模型往往难以应对这些低资源语言。AfriHate通过提供多语言、文化敏感的标注数据,帮助研究者开发更具泛化能力的模型,填补了非洲语言在自然语言处理领域的空白。此外,该数据集还为研究仇恨言论的社会文化背景提供了丰富的素材,推动了跨文化仇恨言论检测的研究。
衍生相关工作
AfriHate数据集衍生了一系列相关研究,特别是在多语言仇恨言论检测和非洲语言自然语言处理领域。基于该数据集,研究者开发了多种多语言模型,如AfriBERTa和AfroXLMR,这些模型在低资源语言环境下表现出色。此外,AfriHate还推动了非洲语言资源的标准化和共享,促进了非洲语言在自然语言处理领域的研究和应用。相关研究还包括跨文化仇恨言论的对比分析,以及针对特定非洲语言的仇恨言论检测工具的开发。
以上内容由遇见数据集搜集并总结生成



