Vulnerable Identities Recognition Corpus (VIRC)

github2024-10-22 更新2024-10-23 收录

下载链接：

https://github.com/oeg-upm/virc

下载链接

链接失效反馈

官方服务：

资源简介：

VIRC是一个用于增强意大利和西班牙新闻标题中仇恨言论分析的数据集。它提供了标注的标题，旨在识别脆弱身份、危险言论、贬损提及和实体。该语料库有助于开发更复杂的仇恨言论检测工具和政策，以创建更安全的在线环境。

VIRC is a dataset designed to enhance hate speech analysis in Italian and Spanish news headlines. It provides annotated headlines aimed at identifying vulnerable identities, dangerous speech, derogatory references, and entities. This corpus facilitates the development of more sophisticated hate speech detection tools and policies to create safer online environments.

创建时间：

2024-10-21

原始信息汇总

Vulnerable Identities Recognition Corpus (VIRC) for Hate Speech Analysis

概述

VIRC 是一个用于增强意大利语和西班牙语新闻标题中仇恨言论分析的数据集。该数据集包含 880 个标题（532 个意大利语和 348 个西班牙语），并带有以下标签的注释：

命名实体：识别标题中提到的人物、地点、组织、团体等。
脆弱身份提及：标记被仇恨言论针对的群体，如女性、LGBTQI、少数民族和移民。
贬损提及：标记对脆弱群体具有贬损性的短语。
危险言论：突出被认为可能煽动仇恨或延续有害刻板印象的文本部分。

项目内容

virc ├── Data │ ├── annotations_italian_1.json │ ├── annotations_italian_2.json │ ├── corpus_italian_1.csv │ ├── corpus_italian_2.csv │ │ │ ├── annotations_spanish_1.json │ ├── annotations_spanish_2.json │ ├── annotations_spanish_disagreement.json │ ├── corpus_spanish_1.csv │ ├── corpus_spanish_2.csv │ ├── corpus_spanish_disagreement.csv │ │ │ ├── ita_gold.csv │ └── spa_gold.csv │ ├── VIRC_Guidelines.pdf ├── VIRC.ipynb ├── LICENSE └── README.md

注释

VIRC_Guidelines.pdf 包含提供给注释者的注释指南。

数据

西班牙语：西班牙语数据集分为三个部分，1、2 和 disagreement。1 和 2 部分包含两个原始注释者标注的数据，而 disagreement 部分包含未达成一致的新闻，需要第三个注释者。
意大利语：意大利语数据分为两个部分（1 和 2），由两个注释者标注。
分解数据：包含所有注释的文件根据以下模式命名 annotations_{language}_{set}.json。
黄金标准：通过论文中解释的过程生成的黄金标准数据集对应于 ita_gold.csv 和 spa_gold.csv 文件。

Jupyter Notebook

VIRC.ipynb 笔记本包含生成黄金标准数据集、计算 F 分数、论文中提到的统计数据以及零样本实验的所有代码。
运行笔记本需要以下包： python tqdm==4.64.1 transformers==4.36.2 torch==2.1.2 pandas==1.4.4

许可证

该工作基于 MIT 许可证。详细信息请参见 LICENSE 文件。

搜集汇总

数据集介绍

构建方式

Vulnerable Identities Recognition Corpus (VIRC) 的构建旨在提升意大利语和西班牙语新闻标题中仇恨言论的分析能力。该数据集包含了880条新闻标题，其中532条为意大利语，348条为西班牙语。这些标题经过细致的标注，涵盖了命名实体、易受攻击群体提及、贬损提及以及危险言论等多个类别。标注过程遵循严格的指南，确保了数据的高质量。此外，数据集还包含了金标准数据集，通过多轮标注和第三方仲裁生成，以确保标注的一致性和准确性。

特点

VIRC 数据集的显著特点在于其多语言支持和详尽的标注体系。该数据集不仅涵盖了意大利语和西班牙语两种语言，还通过细致的标注揭示了新闻标题中潜在的仇恨言论元素。其标注体系包括命名实体、易受攻击群体提及、贬损提及和危险言论等，为研究者提供了丰富的分析维度。此外，数据集中的金标准数据集进一步提升了数据的可信度和研究价值。

使用方法

VIRC 数据集的使用方法多样，适用于多种自然语言处理任务。研究者可以通过提供的 Jupyter Notebook 进行数据集的加载、标注分析和模型训练。该 Notebook 包含了金标准数据集的生成代码、F-score 计算以及零样本实验的实现。使用时需确保安装了指定的 Python 包，如 tqdm、transformers、torch 和 pandas。通过这些工具，研究者可以深入探索仇恨言论的识别与分析，推动相关领域的技术进步。

背景与挑战

背景概述

在当今数字时代，仇恨言论的识别与管理已成为全球关注的焦点。Vulnerable Identities Recognition Corpus (VIRC) 数据集应运而生，旨在通过分析意大利和西班牙新闻标题中的仇恨言论，提升对脆弱群体的保护。该数据集由多个研究机构合作创建，包括Universidad Politécnica de Madrid和Universidad de Turin，主要研究人员包括Ibai Guillen、Arianna Longo、Marco Antonio Stranisci、Viviana Patti和Carlos Badenes。VIRC数据集的核心研究问题是如何有效识别和标注新闻标题中的脆弱身份提及、贬损提及和危险言论，从而为开发更先进的仇恨言论检测工具和政策提供数据支持。该数据集的发布不仅推动了跨语言仇恨言论分析的研究，也为创建更安全的在线环境提供了重要资源。

当前挑战

VIRC数据集在构建过程中面临多重挑战。首先，跨语言仇恨言论的识别需要克服语言和文化差异，确保标注的一致性和准确性。其次，数据集的标注过程涉及多个标注者，如何处理标注者之间的分歧和达成共识是一个复杂的问题。此外，数据集的规模和多样性也对其应用提出了挑战，如何在有限的样本中捕捉到不同类型的仇恨言论，并确保模型的泛化能力，是当前研究的重点。最后，数据集的隐私和伦理问题也不容忽视，如何在保护个人隐私的同时，确保数据的有效性和可用性，是未来研究的重要方向。

常用场景

经典使用场景

在仇恨言论分析领域，Vulnerable Identities Recognition Corpus (VIRC) 数据集的经典使用场景主要集中在识别和分类新闻标题中的仇恨言论。通过标注意大利语和西班牙语新闻标题中的脆弱身份提及、贬损提及和危险言论，VIRC 数据集为研究人员提供了丰富的语料库，用于开发和验证仇恨言论检测模型。这些模型能够自动识别和标记可能包含仇恨言论的文本，从而为社交媒体平台和新闻机构提供有效的内容过滤工具。

衍生相关工作

VIRC 数据集的发布催生了一系列相关研究工作，特别是在跨语言仇恨言论检测和多模态数据融合领域。研究人员利用 VIRC 数据集开发了多种先进的检测模型，如基于深度学习的序列标注模型和多任务学习框架，显著提升了仇恨言论检测的准确性和效率。此外，VIRC 数据集还激发了对仇恨言论生成机制的研究，推动了对抗生成网络（GAN）在仇恨言论检测中的应用，为该领域的技术创新提供了新的思路。

数据集最近研究