BenjaminOcampo/ISHate

Name: BenjaminOcampo/ISHate
Creator: BenjaminOcampo
Published: 2024-05-09 00:24:56
License: 暂无描述

Hugging Face2024-05-09 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/BenjaminOcampo/ISHate

下载链接

链接失效反馈

官方服务：

资源简介：

ISHate（隐性和微妙仇恨言论）是一个用于社交媒体上隐性和微妙仇恨言论检测的基准数据集。该数据集在EACL 2023会议上发表的论文《An In-depth Analysis of Implicit and Subtle Hate Speech Messages》中提出。隐性仇恨言论不直接表示侮辱或仇恨，而是通过比喻性语言（如讽刺、挖苦等）隐藏真实含义，使其更难以理解。微妙仇恨言论则涉及那些难以分析或描述的仇恨信息，通常依赖于间接的方式传递含义。数据集中包含多个字段，如消息ID、原始文本、预处理后的文本、来源、仇恨言论层、隐性层、微妙层等。

提供机构：

BenjaminOcampo

原始信息汇总

数据集概述

名称: ISHate

描述: ISHate是一个用于检测社交媒体消息中隐含和微妙仇恨言论的基准数据集。该数据集在EACL 2023会议上发表的论文《An In-depth Analysis of Implicit and Subtle Hate Speech Messages》中被介绍。

语言: 英语

任务类别: 文本分类

标签: 仇恨言论检测, 隐含仇恨, 微妙仇恨, 基准

数据字段

message_id: 源数据集中文本消息的ID。
text: 未经预处理的文本消息。
cleaned_text: 经过预处理的文本消息（替换长非空格字符链为单个出现，删除数字、特殊符号和URL）。
source: 消息提取的来源。
hateful_layer: 包含非HS和HS标签的层。
implicit_layer: 包含明确HS和隐含HS标签的层。
subtlety_layer: 包含非微妙和微妙标签的层。
implicit_props_layer: 隐含HS实例的隐含属性标签层。
aug_method: 用于该消息的增强方法（orig表示原始数据）。
target: 被攻击的目标群体（HS实例），或消息指向的非特定攻击或非仇恨目标群体（非HS实例）。

引用信息

作者: Nicolás Benjamín Ocampo, Ekaterina Sviridova, Elena Cabrio, Serena Villata

出版年份: 2023

会议: 第17届欧洲计算语言学协会会议

页码: 1997–2013

出版商: 计算语言学协会

标题: An In-depth Analysis of Implicit and Subtle Hate Speech Messages

DOI: 10.18653/v1/2023.eacl-main.147

搜集汇总

数据集介绍

构建方式

ISHate数据集的构建采取了对社交媒体上的文本消息进行深度标注的方法，旨在捕捉隐含和微妙的仇恨言论。数据集的构建基于对隐含仇恨和细微仇恨的细致区分，涵盖讽刺、挖苦等富有修辞的语言表达，同时涉及对否定、条件句、连接词、不相关结构、词序和迂回说法等语言特征的考量，从而形成了一个包含丰富语言层面的标注体系。

使用方法

使用ISHate数据集时，用户首先需要理解数据集中各标注层的含义及其相互关系。数据集提供了原始文本及其预处理版本，使用户能够根据具体任务需求选择合适的数据格式。此外，数据集还包含了消息来源、目标群体等信息，有助于研究人员进行更深入的分析和模型训练。引用该数据集时，应遵循提供的相关文献引用格式，确保学术规范的遵守。

背景与挑战

背景概述

ISHate数据集，全称为Implicit and Subtle Hate，是一项针对社交媒体信息中隐含和细微仇恨言论检测的基准数据集。该数据集的创建旨在深入分析与显性仇恨言论相比，更具隐蔽性和难以捉摸的仇恨表达形式。该数据集的研究起源于尼古拉斯·本杰明·奥坎波等研究人员，并在2023年的EACL会议上，其相关论文《An In-depth Analysis of Implicit and Subtle Hate Speech Messages》得到接受并发布。该数据集的构建对于社交媒体平台上的言论审查机制以及相关自然语言处理技术的发展具有显著影响，为仇恨言论的检测与处理提供了新的研究视角和资源。

当前挑战

ISHate数据集所面临的挑战主要在于仇恨言论的隐晦性和细微性，这使得自动化系统的检测变得极具挑战性。具体挑战包括：如何准确识别并标注那些不直接表达仇恨的隐含仇恨言论，以及那些通过间接方式传递意义的细微仇恨言论。此外，构建过程中遇到的挑战还包括如何处理包含讽刺、隐喻、挖苦等语言特性的文本，以及如何区分含有否定与肯定条款、条件句、连接词、不相关结构、单词顺序和迂回表达等语言特征的细微差别。这些挑战不仅考验着数据集的质量，也对于后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

ISHate数据集，针对社交媒体中隐含与细微的仇恨言论检测，提供了一个重要的基准。在文本分类任务中，该数据集的经典使用场景在于训练与评估模型对隐含和细微仇恨言论的识别能力，特别是在那些使用讽刺、隐喻等修辞手法的文本中。通过该数据集，研究者能够构建出能够深入理解语言隐含意义的模型，从而在社交平台上更有效地识别出潜在的有害内容。

解决学术问题

该数据集解决了学术界在仇恨言论检测中长久存在的难题，即如何准确识别那些不直接表达仇恨的隐含和细微仇恨言论。这对于提升模型在复杂语境下的理解能力，以及增强对社交媒体内容监管的准确性具有重要意义。ISHate数据集为相关研究提供了丰富的标注数据，有助于推进对仇恨言论深层特征的理解和检测技术的发展。

实际应用

在实际应用中，ISHate数据集的应用场景广泛，包括但不限于社交媒体平台的自动内容审核、网络环境的监控与净化，以及为政策制定者提供关于仇恨言论传播的实证数据。这些应用不仅有助于营造更健康的网络环境，同时也为打击网络犯罪和促进社会和谐提供了有力工具。

数据集最近研究