Harassment-Corpus

github2022-11-16 更新2024-05-31 收录

下载链接：

https://github.com/Mrezvan94/Harassment-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

发布一个高质量的上下文感知标注的骚扰研究语料库和词汇表。该数据集通过识别亵渎或攻击性词汇来开始网络欺凌事件的调查，并将其分为六个上下文类别进行收集和标注。

A high-quality context-aware annotated corpus and glossary for harassment research has been released. This dataset initiates the investigation of cyberbullying incidents by identifying profane or offensive vocabulary, which is then collected and annotated into six contextual categories.

创建时间：

2018-02-19

原始信息汇总

Harassment-Corpus 数据集概述

数据集目的

本数据集旨在发布一个质量高、上下文感知的注释语料库和词汇表，用于骚扰研究。

数据收集方法

首先创建了一个包含亵渎或攻击性词汇的词汇表，并将其分为六个上下文类别：1) 性相关 2) 外貌相关 3) 智力相关 4) 政治相关 5) 种族相关 6) 综合类。
利用前五个类别的词汇作为种子术语，从Twitter收集推文。
对于每种上下文类型，使用至少一个攻击性词汇收集了10,000条推文，总计50,000条。

数据集特点

包含50,000条推文，每条推文至少包含一个攻击性词汇。
推文分为五个上下文类别进行收集。
通过人工注释来区分骚扰性和非骚扰性推文。

支持机构

本项目得到美国国家科学基金会（NSF）的资助，项目编号为CNS 1513721。

联系方式

如需获取注释推文，请联系以下作者：

Mohammadreza Rezvan: mohammadrezarezvan94@gmail.com
Saeedeh Shekarpour: sshekarpour1@udayton.edu

搜集汇总

数据集介绍

构建方式

Harassment-Corpus数据集的构建始于对网络欺凌事件的初步调查，通过识别粗俗或冒犯性词汇作为起点。研究团队首先创建了一个包含六种上下文类别的词汇表，包括性相关、外貌相关、智力相关、政治相关、种族相关以及综合类别。随后，利用前五类词汇作为种子术语，从Twitter上收集了每种上下文类型各10,000条推文，总计50,000条。为确保推文的骚扰性质，研究团队依赖人工标注来区分骚扰性推文与非骚扰性推文。

特点

Harassment-Corpus数据集的特点在于其上下文感知的标注方式，涵盖了多种骚扰类型，如性骚扰、外貌歧视、智力侮辱、政治攻击和种族歧视等。该数据集不仅提供了丰富的文本数据，还通过人工标注确保了数据的准确性和可靠性。此外，数据集的多类别划分使其能够支持更细粒度的骚扰检测研究，为相关领域的学者提供了宝贵的研究资源。

使用方法

Harassment-Corpus数据集的使用方法主要围绕骚扰检测研究展开。研究者可以通过分析数据集中的推文内容，结合上下文信息，开发或优化骚扰检测算法。数据集的多类别标注为模型训练提供了明确的标签，有助于提升模型的分类性能。此外，研究者还可以利用该数据集进行跨领域研究，如情感分析、语言模型优化等，以进一步探索网络骚扰的复杂性和多样性。

背景与挑战

背景概述

Harassment-Corpus数据集由Knoesis研究中心的研究人员于2016年发布，旨在为网络骚扰研究提供高质量的上下文感知注释语料库和词典。该数据集的核心研究问题是通过识别和分析社交媒体上的冒犯性语言，检测和分类网络骚扰行为。研究人员从Twitter平台上收集了50,000条推文，并根据六种上下文类型（性骚扰、外貌相关、智力相关、政治相关、种族相关和综合类）进行分类。该数据集得到了美国国家科学基金会（NSF）的资助，项目编号为CNS 1513721。Harassment-Corpus的发布为网络骚扰检测领域提供了重要的数据支持，推动了基于上下文感知的骚扰检测算法的发展。

当前挑战

Harassment-Corpus数据集在构建和应用过程中面临多重挑战。首先，识别冒犯性语言并不等同于检测网络骚扰，因为冒犯性词汇可能被用于友好交流或引用，这增加了区分骚扰与非骚扰内容的难度。其次，数据集的构建依赖于人工标注，标注的一致性和准确性对数据质量至关重要，但人工标注的主观性可能导致偏差。此外，社交媒体语言的动态性和多样性使得模型难以泛化，尤其是在不同文化和语境下的骚扰表达差异显著。最后，隐私和伦理问题也是该数据集应用中的一大挑战，如何在保护用户隐私的同时进行有效研究仍需进一步探讨。

常用场景

经典使用场景

Harassment-Corpus数据集在社交媒体内容分析领域具有重要应用，尤其是在网络欺凌和骚扰行为的检测中。该数据集通过收集并标注包含特定冒犯性词汇的推文，为研究人员提供了一个丰富的语料库，用于训练和测试上下文感知的骚扰检测模型。其独特的上下文分类（如性骚扰、外貌相关、智力相关、政治相关和种族相关）使得模型能够更精确地识别不同类型的骚扰行为。

实际应用

在实际应用中，Harassment-Corpus数据集为社交媒体平台的内容审核系统提供了重要支持。通过利用该数据集训练的模型，平台能够自动识别并过滤出潜在的骚扰内容，从而改善用户体验并维护社区的健康环境。此外，该数据集还可用于教育领域，帮助学生和教师识别和应对网络欺凌行为，促进网络环境的良性发展。

衍生相关工作

基于Harassment-Corpus数据集，许多经典研究工作得以展开。例如，研究人员开发了多种上下文感知的机器学习模型，用于提高骚扰检测的准确性。此外，该数据集还催生了一系列关于网络欺凌行为模式的研究，探讨了不同文化和社会背景下骚扰行为的表现形式。这些工作不仅丰富了学术界对网络欺凌的理解，也为相关政策制定提供了科学依据。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集