HATEMOJICHECK, HATEMOJIBUILD

Name: HATEMOJICHECK, HATEMOJIBUILD
Creator: 牛津大学, 艾伦图灵研究所
Published: 2022-05-07 00:12:05
License: 暂无描述

arXiv2022-05-07 更新2024-07-24 收录

下载链接：

https://github.com/HannahKirk/Hatemoji

下载链接

链接失效反馈

官方服务：

资源简介：

HATEMOJICHECK是一个包含3930条简短陈述的测试套件，用于评估模型在识别使用表情符号表达的仇恨语言方面的性能。该数据集由牛津大学和艾伦图灵研究所创建，旨在揭示现有仇恨检测模型的弱点。HATEMOJIBUILD数据集则是通过人机交互方法创建，包含5912个对抗性示例，用于训练模型以提高检测基于表情符号的仇恨言论的能力。这两个数据集均已公开发布，旨在帮助研究人员和实践者提高模型在敏感应用如内容审核中的性能。数据集的应用领域主要集中在解决在线仇恨言论问题，特别是在识别和防止使用表情符号表达的仇恨言论方面。

HATEMOJICHECK is a test suite consisting of 3,930 short statements, designed to evaluate model performance in identifying hate speech expressed via emojis. Created by the University of Oxford and the Alan Turing Institute, this dataset aims to uncover the limitations of existing hate detection models. The HATEMOJIBUILD dataset, constructed using human-computer interaction methods, contains 5,912 adversarial examples intended for training models to enhance their ability to detect emoji-based hate speech. Both datasets have been publicly released, with the goal of assisting researchers and practitioners in improving model performance in sensitive applications such as content moderation. Their primary application domain focuses on addressing online hate speech, particularly in identifying and preventing hate speech conveyed through emojis.

提供机构：

牛津大学, 艾伦图灵研究所

创建时间：

2021-08-13

原始信息汇总

Hatemoji 数据集概述

数据集简介

Hatemoji 数据集包含两个子数据集，来源于2021年的论文《Hatemoji: A Test Suite and Adversarially-Generated Dataset for Benchmarking and Detecting Emoji-based Hate》。该数据集遵循CC-BY-4.0许可。

HatemojiCheck

描述：包含3,930个测试案例，覆盖七种基于表情符号的仇恨功能和六种身份。
用途：用于评估仇恨言论分类器对基于表情符号的仇恨构造的鲁棒性。

HatemojiBuild

描述：包含5,912个通过人机协同循环方法生成的对抗性示例，分为三轮收集。
用途：用于训练、开发和测试模型处理具有挑战性的基于表情符号的仇恨和扰动。

数据集结构

HatemojiCheck 列信息

case_id：测试案例的唯一ID。
templ_id：模板唯一ID。
test_grp_id：模板集ID。
text：测试案例文本。
target：受保护群体（如适用）。
functionality：测试案例的功能简称。
set：测试案例类型（原始、身份扰动、极性扰动、无表情符号扰动）。
label_gold：金标准标签（{1: "hateful", 0: "non-hateful"}）。
unrealistic_flags：标记为不现实的注释者数量。
included_in_test_suite：是否包含在最终测试套件中。

HatemojiBuild 列信息

entry_id：条目的唯一ID。
text：条目文本。
type：仇恨类型（针对仇恨条目）。
target：仇恨目标（针对仇恨条目）。
round.base：生成条目的轮次。
round.set：轮次和条目类型（原始或扰动）。
set：条目类型（原始或扰动）。
split：随机分配的训练/开发/测试分割。
label_gold：金标准标签（{1: "hateful", 0: "non-hateful"}）。
matched_text：配对扰动的文本。
matched_id：配对扰动的唯一条目ID。

搜集汇总

数据集介绍

构建方式

在在线仇恨检测领域，表情符号的广泛应用为自动化识别带来了新兴挑战。HATEMOJICHECK测试套件通过模板化方法构建，涵盖了七种功能类别，包括动词替换、身份替换、描述符替换等。研究者基于文献回顾与实证调查，从Twitter平台收集真实案例，采用扎根理论方法识别表情符号仇恨的典型模式。该套件包含3,930条简短陈述，其中2,126条为原始测试用例，并辅以身份、极性和无表情符号三类扰动，共计1,804条，以精确评估模型决策边界。所有测试用例均经过三名经验丰富的标注者验证，确保了标签的准确性与一致性。

特点

HATEMOJICHECK作为首个专注于表情符号仇恨的评估套件，其核心特点在于系统性与针对性。该数据集通过七种功能化分类，全面覆盖了表情符号在仇恨表达中的多种使用方式，如表情符号替代身份术语或威胁性动词，以及在文本后附加负面表情符号等。每个测试用例均配有明确的黄金标准标签，并设计了具有挑战性的扰动对比，能够深入揭示模型在表情符号理解上的具体弱点。数据集规模适中，语言简洁明了，专注于英语短文本，为模型评估提供了清晰的最低性能标准。

使用方法

该数据集主要用于评估仇恨检测模型对表情符号仇恨的识别能力。研究人员可利用HATEMOJICHECK对现有商业或学术模型进行系统性测试，通过计算模型在各功能类别及扰动集上的准确率等指标，精准定位模型弱点，例如对身份替换或极性扰动的误判。基于评估结果，可进一步利用其姊妹数据集HATEMOJIBUILD——一个通过人机循环对抗生成的训练集——来针对性增强模型的“表情符号意识”。这种“评估-训练”的闭环流程，为提升模型对新兴在线危害形式的检测鲁棒性提供了有效范式。

背景与挑战

背景概述

HATEMOJI数据集由牛津大学、艾伦·图灵研究所等机构的研究团队于2022年发布，旨在应对在线仇恨检测中表情符号滥用这一新兴挑战。该数据集包含HATEMOJICHECK测试套件与HATEMOJIBUILD对抗生成数据集，专注于评估和提升模型对表情符号仇恨语言的识别能力。其核心研究问题在于揭示现有仇恨检测系统在表情符号语境下的脆弱性，并通过人机协同的对抗训练机制构建更鲁棒的检测模型。该工作为自然语言处理领域的在线安全研究提供了重要的基准工具，推动了针对多模态仇恨内容检测方法的发展。

当前挑战

在表情符号仇恨检测领域，主要挑战在于模型对语义置换与语境混淆的识别困难。具体而言，当仇恨表达中的身份词、动词或描述词被表情符号替换时，传统文本模型往往无法捕捉其隐含的恶意意图。此外，正负向表情符号的附加可能扭曲语句的情感极性，导致模型误判。在数据集构建过程中，研究团队面临对抗样本生成的创造性瓶颈与标注一致性难题，需通过多轮迭代训练与严格的质量控制流程，确保生成样本既符合现实场景又具备足够的对抗复杂性。

常用场景

经典使用场景

在自然语言处理领域，HATEMOJICHECK与HATEMOJIBUILD数据集主要被用于评估和提升针对表情符号仇恨言论的检测模型性能。该数据集通过构建涵盖七种功能类别的测试套件，系统性地检验模型在识别表情符号替换、附加及混淆等复杂表达形式时的鲁棒性。其经典应用场景包括为学术研究和工业界提供基准测试平台，帮助研究者量化现有模型在表情符号仇恨检测任务上的能力边界，并为模型优化提供明确的改进方向。

解决学术问题

该数据集有效解决了仇恨言论检测领域中表情符号滥用这一新兴挑战带来的学术问题。传统文本检测模型往往难以捕捉表情符号所承载的隐晦恶意，导致对表情符号替换身份词、动词或描述词等对抗性样本的识别率低下。HATEMOJICHECK通过功能化测试套件揭示了模型决策边界的脆弱性，而HATEMOJIBUILD则通过人机协同的对抗生成机制，构建了能够增强模型语义理解能力的训练数据，从而在保持纯文本检测性能的同时，显著提升了模型对表情符号仇恨的敏感度与泛化能力。

衍生相关工作

该数据集的发布催生了一系列围绕表情符号与在线危害检测的延伸研究。部分工作借鉴其人机协同对抗生成范式，将其扩展至多语言仇恨言论或图像-文本混合内容的检测任务中。另有研究基于其功能测试框架，开发了针对特定文化语境或新兴社交媒体平台的表情符号滥用评估工具。在模型架构方面，一些工作尝试融合表情符号的视觉特征与文本语义，构建跨模态仇恨检测模型，进一步提升了复杂场景下的识别精度。这些衍生研究共同推动了在线内容安全领域向更细粒度、更适应动态演化的技术方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集