IMPLICIT HATE CORPUS
收藏arXiv2021-09-12 更新2024-06-21 收录
下载链接:
https://github.com/GT-SALT/implicit-hate
下载链接
链接失效反馈官方服务:
资源简介:
IMPLICIT HATE CORPUS是由加州大学圣地亚哥分校和佐治亚理工学院的研究人员创建的一个大型数据集,专注于捕捉和分类社交媒体上的隐性仇恨言论。该数据集包含22,584条精细标注的隐性仇恨言论,每条消息都附有其含义的自然语言描述。数据集的创建旨在填补现有研究在隐性仇恨言论方面的空白,并为理解和检测这种复杂问题提供一个有用的基准。该数据集的应用领域包括社交媒体内容审核、仇恨言论检测和在线社区管理,旨在解决网络环境中隐性仇恨言论的识别和干预问题。
The IMPLICIT HATE CORPUS is a large-scale dataset created by researchers from the University of California, San Diego and the Georgia Institute of Technology, focusing on capturing and classifying implicit hate speech on social media. This dataset contains 22,584 meticulously annotated implicit hate speech instances, with each message accompanied by a natural language description of its intended meaning. The dataset was developed to fill the research gap in existing studies on implicit hate speech, and to provide a valuable benchmark for understanding and detecting this complex issue. Its application scenarios include social media content moderation, hate speech detection, and online community management, aiming to address the identification and intervention of implicit hate speech in online environments.
提供机构:
加州大学圣地亚哥分校, 佐治亚理工学院
创建时间:
2021-09-12
搜集汇总
数据集介绍

构建方式
IMPLICIT HATE CORPUS 数据集的构建基于对社交媒体上隐性仇恨言论的理论分类。研究团队首先建立了一个六类隐性仇恨言论的分类体系,该体系扎根于社会科学文献。随后,他们使用这一分类体系对一个新的 Twitter 数据集进行了标注,该数据集涵盖了美国最普遍的仇恨团体。数据集的构建过程包括从这些团体的 Twitter 账户中收集推文,并通过两阶段的标注过程进行分类:首先区分显性仇恨、隐性仇恨和非仇恨言论,然后对隐性仇恨言论进行细粒度分类。
特点
IMPLICIT HATE CORPUS 数据集的主要特点在于其对隐性仇恨言论的细致分类和广泛覆盖。数据集不仅包含大量代表性的隐性仇恨言论样本,还提供了每条仇恨言论的细粒度标签和自然语言描述的隐含信息。此外,数据集通过系统分析和当代基线模型的应用,揭示了现有模型在检测隐性仇恨言论方面的挑战,为未来的研究提供了宝贵的基准。
使用方法
IMPLICIT HATE CORPUS 数据集可用于训练和评估仇恨言论检测模型,特别是针对隐性仇恨言论的检测。研究者可以使用该数据集来开发和测试新的分类算法,以提高对隐性仇恨言论的识别能力。此外,数据集还可以用于生成自然语言解释,帮助内容审核员更好地理解自动标记的仇恨言论的严重性和性质,从而制定更有效的审核策略。
背景与挑战
背景概述
IMPLICIT HATE CORPUS 数据集由 Mai ElSherief 等人于 2021 年创建,旨在解决社交媒体上隐性仇恨言论的检测问题。该数据集的核心研究问题是如何识别和分类基于编码或间接语言的隐性仇恨言论。通过引入一个理论上有依据的隐性仇恨言论分类法和一个包含细粒度标签的基准语料库,该数据集为理解和检测隐性仇恨言论提供了重要的资源。IMPLICIT HATE CORPUS 不仅为相关领域的研究提供了新的视角,还为开发更有效的仇恨言论检测系统奠定了基础。
当前挑战
IMPLICIT HATE CORPUS 数据集在构建过程中面临多重挑战。首先,隐性仇恨言论的定义和识别本身就是一个复杂的问题,因为它涉及语言的微妙性和多样性,包括间接讽刺、幽默、委婉语、迂回表达和其他象征性或隐喻性语言。其次,数据集的构建需要对大量社交媒体内容进行标注,这不仅耗时且成本高昂,还需要确保标注的一致性和准确性。此外,现有的仇恨言论检测模型主要针对显性仇恨言论,对隐性仇恨言论的检测能力有限,因此需要开发新的模型和方法来应对这一挑战。
常用场景
经典使用场景
IMPLICIT HATE CORPUS 数据集的经典使用场景在于识别和分类社交媒体中的隐性仇恨言论。该数据集通过提供一个理论基础的分类法和详细的标签,帮助研究人员和算法系统区分显性和隐性仇恨言论。其精细的标签和自然语言描述的隐含信息,使得该数据集成为开发和评估仇恨言论检测模型的理想基准。
实际应用
IMPLICIT HATE CORPUS 数据集在实际应用中具有广泛的价值,特别是在社交媒体平台的仇恨言论监控和内容审核中。通过使用该数据集训练的模型,平台可以更准确地识别和处理隐性仇恨言论,从而提高用户体验和社区安全。此外,该数据集还可用于开发教育和培训材料,帮助公众识别和应对网络上的仇恨言论。
衍生相关工作
IMPLICIT HATE CORPUS 数据集的发布催生了一系列相关研究和工作,特别是在隐性仇恨言论检测和生成解释方面。例如,基于该数据集的研究已经开发出多种先进的检测模型,并探索了如何生成自然语言解释以帮助内容审核员理解隐性仇恨言论的严重性。此外,该数据集还激发了对仇恨言论检测中偏见和公平性问题的进一步研究,推动了更公正和有效的检测系统的开发。
以上内容由遇见数据集搜集并总结生成



