virc

Name: virc
Creator: Ontology Engineering Group
Published: 2025-01-22 05:30:55
License: 暂无描述

Hugging Face2025-01-22 更新2025-01-23 收录

下载链接：

https://huggingface.co/datasets/oeg/virc

下载链接

链接失效反馈

官方服务：

资源简介：

VIRC（Vulnerable Identities Recognition Corpus）是一个用于增强意大利语和西班牙语新闻标题中仇恨言论分析的数据集。该数据集包含880条标题（532条意大利语和348条西班牙语），并标注了命名实体、脆弱身份提及、贬义提及和危险言论等标签。数据集分为多个子集，包括西班牙语和意大利语的注释、黄金标准注释和注释者评论。VIRC旨在支持开发更复杂的仇恨言论检测工具，并为创建更安全的在线环境提供政策支持。

VIRC (Vulnerable Identities Recognition Corpus) is a dataset developed to enhance hate speech analysis for Italian and Spanish news headlines. This dataset contains 880 headlines, with 532 in Italian and 348 in Spanish, and is annotated with labels including named entities, vulnerable identity mentions, derogatory references, and harmful speech. The dataset is divided into multiple subsets, namely annotations for Spanish and Italian content, gold standard annotations, and annotator comments. VIRC aims to support the development of more sophisticated hate speech detection tools, and provide policy support for building safer online environments.

提供机构：

Ontology Engineering Group

创建时间：

2025-01-22

搜集汇总

数据集介绍

构建方式

VIRC数据集的构建基于意大利语和西班牙语的新闻标题，旨在识别仇恨言论中的脆弱身份、危险言论和贬低性提及。数据收集过程中，西班牙语数据集被分为‘同意’和‘不同意’两部分，前者由两位原始标注者共同标注，后者则需第三位标注者介入。意大利语数据集则由两位标注者完成标注。所有标注均遵循详细的标注指南，确保数据的一致性和准确性。

特点

VIRC数据集的特点在于其专注于仇恨言论分析，尤其是针对脆弱群体的识别。数据集包含880条新闻标题，涵盖了命名实体、脆弱身份提及、贬低性提及和危险言论等多种标签。这些标签不仅有助于识别仇恨言论的具体表现形式，还能为开发更先进的仇恨言论检测工具提供支持。此外，数据集提供了多种分割方式，便于研究者根据需求选择不同的子集进行分析。

使用方法

VIRC数据集的使用方法简便，用户可通过Hugging Face的`datasets`库直接加载数据集。加载后，用户可以根据研究需求选择不同的数据分割，如全数据集、特定语言的标注集或黄金标准集。数据集的结构清晰，包含标题、标注、标注类型、标注者ID等字段，便于进行文本分类、零样本分类和问答等任务。此外，数据集的详细文档和标注指南为研究者提供了丰富的背景信息和使用指导。

背景与挑战

背景概述

Vulnerable Identities Recognition Corpus (VIRC) 是一个专注于意大利语和西班牙语新闻标题中仇恨言论分析的数据集，旨在识别脆弱身份、危险言论、贬义提及和实体。该数据集由西班牙马德里理工大学（UPM）的研究团队于2024年创建，并在第十届意大利计算语言学会议（CLiC-it 2024）上发布。VIRC 包含880条新闻标题（532条意大利语和348条西班牙语），并标注了命名实体、脆弱身份提及、贬义提及和危险言论等标签。该数据集的发布为开发更先进的仇恨言论检测工具和政策提供了重要支持，推动了在线环境的安全建设。

当前挑战

VIRC 数据集在构建和应用过程中面临多重挑战。首先，仇恨言论的识别本身具有高度主观性，不同文化和语言背景下的定义和表现形式差异显著，这使得标注过程复杂且容易产生歧义。其次，数据集的构建依赖于多轮人工标注，标注者之间的意见分歧需要通过第三方仲裁解决，增加了时间和人力成本。此外，意大利语和西班牙语的语言特性差异也对模型的跨语言泛化能力提出了更高要求。最后，如何在保护脆弱群体隐私的同时，确保数据的透明性和可重复性，也是该数据集在实际应用中需要解决的伦理问题。

常用场景

经典使用场景

VIRC数据集在仇恨言论分析领域具有广泛的应用，尤其是在意大利语和西班牙语的新闻标题中识别脆弱群体和危险言论。研究人员可以利用该数据集进行零样本分类、问答系统以及文本分类任务，特别是在多语言环境下，VIRC为模型训练和评估提供了丰富的标注数据。通过分析新闻标题中的命名实体、脆弱群体提及、贬义表达和危险言论，VIRC帮助研究人员深入理解仇恨言论的语言特征和社会影响。

衍生相关工作

VIRC数据集衍生了一系列经典研究工作，特别是在多语言仇恨言论检测和脆弱群体识别领域。基于VIRC的研究成果已在多个国际会议上发表，推动了仇恨言论检测技术的发展。此外，VIRC还被用于开发跨语言的仇恨言论检测工具，这些工具在实际应用中表现出色，进一步验证了VIRC数据集在学术研究和实际应用中的价值。

数据集最近研究