Harassment corpus
收藏github2018-10-15 更新2024-05-31 收录
下载链接:
https://github.com/Mrezvan94/Publishing-a-Quality-Context-aware-Annotated-Corpus-and-Lexicon-for-Harassment-Research
下载链接
链接失效反馈官方服务:
资源简介:
发布一个质量上下文感知的注释语料库和词汇表,用于骚扰研究。该数据集通过识别亵渎或攻击性词汇来启动网络欺凌事件的调查。数据集包含从Twitter收集的10,000条推文,分为六个上下文类别,并依赖人工评注来区分骚扰推文和非骚扰推文。
A quality context-aware annotated corpus and lexicon for harassment research has been released. This dataset initiates investigations into cyberbullying incidents by identifying profane or offensive vocabulary. It comprises 10,000 tweets collected from Twitter, categorized into six contextual categories, and relies on manual annotations to distinguish between harassing and non-harassing tweets.
创建时间:
2018-02-18
原始信息汇总
数据集概述
数据集名称
Harassment corpus
数据集目的
发布一个质量上下文感知的注释语料库和词典,用于骚扰研究。
数据集内容
- 词典结构:数据集包含一个词典,分为六个上下文类别:1) 性相关的 2) 外貌相关的 3) 智力相关的 4) 政治相关的 5) 种族相关的 6) 综合的。
- 数据收集:使用前五个类别的种子术语从Twitter收集推文,每个上下文类型收集10,000条推文,总计50,000条。
- 数据注释:依赖人工判断的注释来区分骚扰性和非骚扰性推文。
数据集支持
获得美国国家科学基金会(NSF)资助,项目编号CNS 1513721。
数据集获取
如需获取注释过的推文,请联系以下作者:
- Mohammadreza Rezavan: mohammadrezarezvan94@gmail.com
- Saeedeh Shekarpour: sshekarpour1@udayton.edu
搜集汇总
数据集介绍

构建方式
Harassment corpus数据集的构建,始于对不当及冒犯性词汇的深度研究,进而创建了一个包含六种语境的词典,涵盖性相关、外貌相关、智力相关、政治相关、种族相关及综合语境。以词典的前五种分类作为关键词,从Twitter上收集了共计50,000条推文,每种语境类型各10,000条。该数据集的构建,依赖于人工标注,以区分骚扰性推文和非骚扰性推文。
特点
Harassment corpus数据集的特点在于,其以语境为基础,深度覆盖了多种可能的骚扰类型,提供了丰富的标注数据。该数据集的语境分类细致,有助于研究者在社交媒体上进行语境感知的骚扰检测。此外,该数据集的构建得到了国家科学基金会(NSF)的支持,保证了数据集的质量和权威性。
使用方法
使用Harassment corpus数据集,研究者需要通过邮件联系作者获取注释推文。在使用数据集时,研究者应充分理解其语境分类,以便更好地应用于社交媒体上的骚扰检测研究。
背景与挑战
背景概述
Harassment corpus数据集,是在网络霸凌现象日益严重的背景下,由Mohammadreza Rezavan和Saeedeh Shekarpour等研究人员于2010年代初期创建的。该数据集针对网络霸凌事件的研究,构建了一个包含六个语境的词典,并以此为基础,从Twitter上收集了总计50,000条推文。该数据集的核心研究问题是如何区分具有攻击性和非攻击性的推文,其对网络霸凌检测领域的研究具有重要的推动作用。
当前挑战
数据集在构建过程中,首先面临的挑战是如何准确识别和处理具有攻击性的词汇,这些词汇在不同的语境下可能具有不同的意义。其次,数据集的构建还需要解决如何区分攻击性推文和非攻击性推文的问题,这需要人工进行精确的标注和分类。此外,数据集在收集和标注过程中,还需遵守相关的法律法规,确保数据的安全和合规。
常用场景
经典使用场景
在社交媒体语境中,Harassment corpus 数据集的典型应用是对网络骚扰行为的识别与分类研究。该数据集通过构建包含六个语境的词汇表,并在Twitter上收集包含这些词汇的推文,为研究者提供了一个丰富的样本集,以探究和识别不同类型的网络骚扰。
解决学术问题
Harassment corpus 数据集解决了传统研究中对网络骚扰定义模糊和分类标准不一的问题。它通过人工标注的方式,将含有攻击性词汇的推文区分为骚扰性与非骚扰性,为学术界提供了一种可靠的分类方法和高质量的数据支持,从而推动网络骚扰检测技术的发展。
衍生相关工作
基于Harassment corpus 数据集,学术界已衍生出一系列相关工作,包括但不限于对网络骚扰检测模型的改进、多语言骚扰内容的识别研究,以及网络行为心理学分析等,这些研究进一步拓宽了网络骚扰问题的研究视野,并促进了相关技术的进步。
以上内容由遇见数据集搜集并总结生成



