five

virc

收藏
Hugging Face2025-01-22 更新2025-01-23 收录
下载链接:
https://huggingface.co/datasets/oeg/virc
下载链接
链接失效反馈
官方服务:
资源简介:
VIRC(Vulnerable Identities Recognition Corpus)是一个用于增强意大利语和西班牙语新闻标题中仇恨言论分析的数据集。该数据集包含880条标题(532条意大利语和348条西班牙语),并标注了命名实体、脆弱身份提及、贬义提及和危险言论等标签。数据集分为多个子集,包括西班牙语和意大利语的注释、黄金标准注释和注释者评论。VIRC旨在支持开发更复杂的仇恨言论检测工具,并为创建更安全的在线环境提供政策支持。

VIRC (Vulnerable Identities Recognition Corpus) is a dataset developed to enhance hate speech analysis for Italian and Spanish news headlines. This dataset contains 880 headlines, with 532 in Italian and 348 in Spanish, and is annotated with labels including named entities, vulnerable identity mentions, derogatory references, and harmful speech. The dataset is divided into multiple subsets, namely annotations for Spanish and Italian content, gold standard annotations, and annotator comments. VIRC aims to support the development of more sophisticated hate speech detection tools, and provide policy support for building safer online environments.
提供机构:
Ontology Engineering Group
创建时间:
2025-01-22
搜集汇总
数据集介绍
main_image_url
构建方式
VIRC数据集的构建基于意大利语和西班牙语的新闻标题,旨在识别仇恨言论中的脆弱身份、危险言论和贬低性提及。数据收集过程中,西班牙语数据集被分为‘同意’和‘不同意’两部分,前者由两位原始标注者共同标注,后者则需第三位标注者介入。意大利语数据集则由两位标注者完成标注。所有标注均遵循详细的标注指南,确保数据的一致性和准确性。
特点
VIRC数据集的特点在于其专注于仇恨言论分析,尤其是针对脆弱群体的识别。数据集包含880条新闻标题,涵盖了命名实体、脆弱身份提及、贬低性提及和危险言论等多种标签。这些标签不仅有助于识别仇恨言论的具体表现形式,还能为开发更先进的仇恨言论检测工具提供支持。此外,数据集提供了多种分割方式,便于研究者根据需求选择不同的子集进行分析。
使用方法
VIRC数据集的使用方法简便,用户可通过Hugging Face的`datasets`库直接加载数据集。加载后,用户可以根据研究需求选择不同的数据分割,如全数据集、特定语言的标注集或黄金标准集。数据集的结构清晰,包含标题、标注、标注类型、标注者ID等字段,便于进行文本分类、零样本分类和问答等任务。此外,数据集的详细文档和标注指南为研究者提供了丰富的背景信息和使用指导。
背景与挑战
背景概述
Vulnerable Identities Recognition Corpus (VIRC) 是一个专注于意大利语和西班牙语新闻标题中仇恨言论分析的数据集,旨在识别脆弱身份、危险言论、贬义提及和实体。该数据集由西班牙马德里理工大学(UPM)的研究团队于2024年创建,并在第十届意大利计算语言学会议(CLiC-it 2024)上发布。VIRC 包含880条新闻标题(532条意大利语和348条西班牙语),并标注了命名实体、脆弱身份提及、贬义提及和危险言论等标签。该数据集的发布为开发更先进的仇恨言论检测工具和政策提供了重要支持,推动了在线环境的安全建设。
当前挑战
VIRC 数据集在构建和应用过程中面临多重挑战。首先,仇恨言论的识别本身具有高度主观性,不同文化和语言背景下的定义和表现形式差异显著,这使得标注过程复杂且容易产生歧义。其次,数据集的构建依赖于多轮人工标注,标注者之间的意见分歧需要通过第三方仲裁解决,增加了时间和人力成本。此外,意大利语和西班牙语的语言特性差异也对模型的跨语言泛化能力提出了更高要求。最后,如何在保护脆弱群体隐私的同时,确保数据的透明性和可重复性,也是该数据集在实际应用中需要解决的伦理问题。
常用场景
经典使用场景
VIRC数据集在仇恨言论分析领域具有广泛的应用,尤其是在意大利语和西班牙语的新闻标题中识别脆弱群体和危险言论。研究人员可以利用该数据集进行零样本分类、问答系统以及文本分类任务,特别是在多语言环境下,VIRC为模型训练和评估提供了丰富的标注数据。通过分析新闻标题中的命名实体、脆弱群体提及、贬义表达和危险言论,VIRC帮助研究人员深入理解仇恨言论的语言特征和社会影响。
衍生相关工作
VIRC数据集衍生了一系列经典研究工作,特别是在多语言仇恨言论检测和脆弱群体识别领域。基于VIRC的研究成果已在多个国际会议上发表,推动了仇恨言论检测技术的发展。此外,VIRC还被用于开发跨语言的仇恨言论检测工具,这些工具在实际应用中表现出色,进一步验证了VIRC数据集在学术研究和实际应用中的价值。
数据集最近研究
最新研究方向
近年来,随着社交媒体和新闻平台的广泛使用,仇恨言论的检测与治理成为了自然语言处理领域的重要研究方向。VIRC数据集作为专门针对意大利语和西班牙语新闻标题的仇恨言论分析工具,为研究者提供了丰富的标注数据,涵盖了命名实体、脆弱群体提及、贬义表达及危险言论等多个维度。该数据集的前沿研究主要集中在多语言仇恨言论检测模型的开发与优化,尤其是在零样本分类和文本分类任务中的应用。通过结合深度学习技术,研究者能够更精准地识别和分类仇恨言论,进而为制定更有效的网络内容管理政策提供支持。VIRC的发布不仅推动了多语言仇恨言论检测技术的发展,也为跨文化背景下的社会问题研究提供了新的数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作