HateCOT

Name: HateCOT
Creator: 马里兰大学
Published: 2024-04-18 00:59:35
License: 暂无描述

arXiv2024-04-18 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2403.11456v2

下载链接

链接失效反馈

官方服务：

资源简介：

HateCOT是一个包含52,000个样本的数据集，由马里兰大学创建，旨在通过大型语言模型提高对攻击性言论的检测能力。该数据集汇集了来自多个现有来源的数据，并由GPT-3.5-Turbo和人工策划生成解释。HateCOT不仅用于预训练模型以检测攻击性内容，还特别强调了在零样本和少量样本设置下，模型对不同领域和任务的适应性。此外，HateCOT还支持在资源有限的环境中进行有效的K-shot微调，旨在解决社交媒体中攻击性内容检测的挑战。

HateCOT is a dataset containing 52,000 samples, created by the University of Maryland, which aims to enhance offensive language detection capabilities via large language models (LLMs). This dataset compiles data from multiple existing sources, and generates explanations through GPT-3.5-Turbo and human curation. HateCOT is not only used for pre-training models to detect offensive content, but also places special emphasis on the adaptability of models across different domains and tasks under zero-shot and few-shot settings. Additionally, HateCOT supports effective K-shot fine-tuning in resource-constrained environments, with the purpose of addressing the challenges of offensive content detection on social media.

提供机构：

马里兰大学

创建时间：

2024-03-18

搜集汇总

数据集介绍

构建方式

在构建HateCOT数据集时，研究者首先从八个现有仇恨言论检测数据集中筛选出符合特定标准的样本，这些标准包括数据规模超过5000条、标签空间具有多样性、提供明确的标签定义以及包含目标群体或注释依据。随后，利用GPT-3.5-Turbo模型，基于人类注释的标签、目标群体和注释依据，生成连贯且符合定义的链式思维解释。通过优化中性与非中性类别的平衡比例以及每个样本的解释数量，最终构建了一个包含52,000个样本的数据集，每个样本均包含输入文本、仇恨言论标签及相应的解释。

特点

HateCOT数据集的核心特点在于其融合了多样化的数据来源与链式思维解释机制。该数据集整合了来自多个平台的样本，覆盖了仇恨言论、冒犯性语言及正常内容等多种类别，确保了标签空间的广泛代表性。其生成的解释不仅增强了模型的可解释性，还通过提供逐步推理过程，帮助模型更好地理解仇恨言论的语义边界。此外，数据集的构建注重跨数据集泛化能力，使得基于其训练的模型在零样本和少样本设置下，能在不同领域和任务中表现出显著的性能提升。

使用方法

HateCOT数据集主要用于提升仇恨言论检测模型的泛化能力和可解释性。研究者可将其作为预训练语料库，对开源语言模型进行微调，以增强模型在零样本或少量样本场景下的分类性能。在实际应用中，用户可通过提供输入文本和相应的标签定义，引导模型生成链式思维解释，从而实现透明的内容审核决策。此外，该数据集支持少样本微调，在低资源环境下有效优化模型参数，并可结合上下文学习技术，进一步提升模型在新领域中的适应性和鲁棒性。

背景与挑战

背景概述

随着社交媒体在现代话语体系中占据不可或缺的地位，其传播渠道也加剧了冒犯性内容的扩散。为应对这一挑战，马里兰大学的研究人员于2024年推出了HateCOT数据集，旨在通过整合多样化的现有资源并引入由GPT-3.5-Turbo生成、经人工校对的解释性文本，构建一个包含52,000个样本的增强型语料库。该数据集的核心研究问题聚焦于提升冒犯性言论检测模型的泛化能力与可解释性，通过融合链式思维推理机制，有效应对不同平台间对“冒犯性内容”概念定义的差异性与标注不一致性。HateCOT的创建不仅为低资源环境下的高效模型微调提供了新范式，更通过引入解释驱动的预训练策略，显著推动了开源语言模型在零样本和少样本场景下的跨领域适应性，对内容审核与可解释人工智能领域产生了深远影响。

当前挑战

在冒犯性言论检测领域，核心挑战在于模型难以跨越不同数据集之间的语义鸿沟，这源于‘冒犯性内容’这一概念本身的高度争议性及其在不同平台间的定义差异。具体而言，现有模型往往在单一数据集上表现优异，却因标注标准与任务定义的异构性而缺乏泛化能力。此外，构建高质量检测数据集面临多重困难：数据标注过程不仅成本高昂、耗时费力，还可能对标注者造成情感伤害；同时，确保标注的一致性与解释的合理性需要精细的设计与验证。HateCOT的构建过程亦需克服关键挑战，包括从多样数据源中筛选符合规模、标签多样性与定义明确性标准的候选集，以及利用大语言模型生成既符合人类标注逻辑又保持语言连贯性的解释文本，并在此过程中平衡中性与非中性类别的分布以优化模型性能。

常用场景

经典使用场景

在社交媒体内容审核领域，HateCOT数据集被广泛用于提升大型语言模型在仇恨言论检测任务中的泛化能力。该数据集通过整合多个现有仇恨言论语料库，并辅以GPT-3.5-Turbo生成、人工校验的链式思维解释，为模型提供了丰富的语义上下文。研究者通常利用HateCOT对开源语言模型进行预训练，随后在零样本或少样本设置下评估模型在未知领域数据集上的表现，从而验证其跨域迁移的有效性。

衍生相关工作

基于HateCOT的范式，后续研究延伸出多个重要方向。例如，学者们探索将链式思维解释集成到更广泛的毒性检测任务中，如隐式仇恨言论识别与跨语言仇恨言论迁移。同时，该数据集启发了对大型语言模型推理能力的系统性评估，促进了如HARE等结合分步推理的检测框架发展。此外，其在低资源场景下的高效微调策略也为其他敏感内容分类任务提供了可借鉴的技术路径。

数据集最近研究