Harassment-Corpus

Name: Harassment-Corpus
Creator: Kno.e.sis中心
Published: 2018-05-24 02:10:17
License: 暂无描述

arXiv2018-05-24 更新2024-06-21 收录

下载链接：

https://github.com/Mrezvan94/Harassment-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Harassment-Corpus是由美国俄亥俄州Kno.e.sis中心创建的一个高质量、类型感知的标注语料库，专注于网络骚扰研究。该数据集包含25,000条经过人工标注的推文，涵盖性骚扰、种族歧视、外貌相关、智力相关和政治相关等五种骚扰内容。数据集通过特定的攻击性词汇词典从Twitter上爬取，并由人工审核确定骚扰性质。此数据集旨在为网络骚扰检测算法提供标准基准，特别关注于改善青少年心理健康，解决与性、外貌和智力相关的骚扰问题。

Harassment-Corpus is a high-quality, type-aware annotated corpus created by the Kno.e.sis Center at Ohio University, United States, focusing on cyber harassment research. This dataset includes 25,000 manually annotated tweets, covering five categories of harassment content: sexual harassment, racial discrimination, appearance-related harassment, intelligence-related harassment, and politics-related harassment. It was crawled from Twitter using a specialized offensive vocabulary lexicon, and the nature of each harassing instance was confirmed via manual review. This dataset aims to provide a standard benchmark for cyber harassment detection algorithms, with a particular focus on improving adolescent mental health and addressing harassment issues related to sex, appearance, and intelligence.

提供机构：

Kno.e.sis中心

创建时间：

2018-02-26

搜集汇总

数据集介绍

构建方式

在社交媒体研究领域，构建高质量的标注语料库对于网络骚扰检测至关重要。Harassment-Corpus的构建始于一个精心编制的冒犯性词汇词典，该词典涵盖了性骚扰、种族骚扰、外貌相关骚扰、智力骚扰和政治骚扰五大类别。研究团队首先利用这一词典作为种子术语，从Twitter平台爬取了五万条推文，每条推文至少包含一个词典中的词汇。随后，三名以英语为母语的标注者对推文进行了人工标注，判断其是否构成特定类型的骚扰，并采用“是”、“否”和“其他”三种标签。最终，通过一致性筛选，保留了标注者间达成共识的推文，形成了包含两万五千条标注推文的语料库，确保了数据的可靠性与针对性。

特点

该数据集的核心特点在于其内容类型的细粒度划分，首次将网络骚扰区分为性、种族、外貌、智力和政治五大具体类别，超越了传统二元标注的局限。语料库不仅提供了每条推文的骚扰类型标签，还附带了经过人工验证的高质量标注，标注者间的一致性系数较高，尤其在种族和外貌相关类别上表现出色。此外，数据集还包含一个内容敏感的冒犯性词汇词典，为深入研究不同骚扰语境下的语言模式提供了宝贵资源。这种类型感知的设计使得该数据集能够支持更精准、更具解释性的骚扰检测模型开发。

使用方法

该数据集主要应用于计算社会科学和自然语言处理领域，特别是网络骚扰与网络欺凌的自动检测研究。研究人员可利用该语料库训练和评估机器学习模型，以识别和分类社交媒体文本中的骚扰内容。具体而言，该数据集支持多分类任务，模型可学习区分不同类型的骚扰言论。此外，附带的冒犯性词汇词典可作为特征工程的基础，或用于分析特定骚扰语境下的语言特征。在使用时，建议遵循数据集的原始划分，并注意不同类别样本量的差异，以确保模型评估的公正性。该数据集已公开于GitHub仓库，便于学术社区进行复现和比较研究。

背景与挑战

背景概述

随着社交媒体在各类人群中的广泛渗透，网络骚扰现象日益凸显，对用户的心理健康与社会信任构成严峻挑战。Harassment-Corpus数据集由Kno.e.sis研究中心联合戴顿大学的研究团队于2018年构建，旨在为网络骚扰检测研究提供高质量的类型感知标注语料库。该数据集聚焦于五大骚扰内容类型：性骚扰、种族骚扰、外貌相关骚扰、智力骚扰与政治骚扰，通过系统化的词汇表构建与人工标注流程，收录了25,000条来自Twitter的标注推文。其创新之处在于突破了传统二元标注框架，实现了细粒度内容分类，为网络骚扰的语境化分析与检测算法比较奠定了重要基础，显著推动了网络科学与计算语言学在在线安全领域的研究进展。

当前挑战

该数据集致力于解决网络骚扰内容细粒度自动检测的核心挑战，其难点在于骚扰意图的语境依赖性极强，相同词汇在不同对话中可能表达亲昵或攻击性，使得模型难以仅凭词汇特征进行准确判别。在构建过程中，研究团队面临多重困难：首先，骚扰语料的收集需平衡敏感内容的覆盖度与伦理边界，初始基于攻击性词汇表爬取的数据包含大量非骚扰性文本，需依赖人工进行高成本筛选；其次，多类型标注面临主观歧义，尤其在政治与性骚扰语境中，标注者间一致性较低，反映了语义模糊性带来的标注挑战；此外，现有公开语料多集中于种族骚扰，导致其他骚扰类型数据稀缺，构建均衡的多类型数据集需克服数据分布不均的固有难题。

常用场景

经典使用场景

在社交媒体内容分析领域，Harassment-Corpus数据集常被用于训练和评估骚扰内容检测模型。该数据集通过标注Twitter推文中的五类骚扰内容（性骚扰、种族骚扰、外貌相关骚扰、智力骚扰和政治骚扰），为研究者提供了细粒度的分类基准。其经典应用场景包括自然语言处理任务中的文本分类、情感分析以及有害语言识别，尤其在网络欺凌和仇恨言论检测的研究中，该数据集能够帮助模型区分不同语境下的骚扰意图，提升检测的准确性与解释性。

衍生相关工作

基于Harassment-Corpus数据集，衍生了一系列经典研究工作。例如，研究者利用其细粒度标注开发了上下文感知的骚扰检测模型，这些模型结合了语言特征、用户网络和时序信息，显著提升了检测性能。此外，该数据集还启发了对骚扰者与受害者语言模式的对比分析，以及跨文化骚扰内容的比较研究。这些工作不仅扩展了网络骚扰研究的深度，也为后续数据集（如多语言或跨平台骚扰语料库）的构建提供了方法论参考。

数据集最近研究