VIDA: The Visual Incel Data Archive

github2024-04-27 更新2024-05-31 收录

下载链接：

https://github.com/uhh-lt/vida

下载链接

链接失效反馈

官方服务：

资源简介：

VIDA是一个多模态数据集，旨在促进在线极端主义社区中的视觉交流研究。它包括与两个主要的非自愿独身者社区（意大利语和英语）相关的视觉材料和网络迷因，这些材料与厌女内容有关。

VIDA is a multimodal dataset designed to facilitate research on visual communication within online extremist communities. It encompasses visual materials and internet memes associated with two major incel (involuntary celibate) communities, one Italian-speaking and the other English-speaking, which are related to misogynistic content.

创建时间：

2024-04-26

原始信息汇总

VIDA: The Visual Incel Data Archive

数据集描述

内容：VIDA是一个多模态数据集，专注于在线极端主义社区中使用的视觉通信研究。数据集包含与厌恶女性内容相关的视觉材料和网络表情包，主要收集自意大利语和英语的两个主要极端主义社区。
注释：数据集根据内容、形式和立场（仇恨）的分类法进行注释，提供细致的上下文信息。
研究重点：识别视觉通信中的隐含意义和文化参考。

访问控制

敏感性：由于数据集内容的敏感性，访问受到控制。
访问请求：需通过访问请求表单申请访问。
使用条款：所有请求均需遵守VIDA数据集使用条款。

使用目的

非商业研究：VIDA数据集仅用于非商业研究目的。
研究支持：旨在帮助研究人员深入理解极端主义内容，并可能提高机器学习系统识别此类内容的能力。

引用信息

引用文献：使用VIDA数据集时，请引用以下论文： latex @inproceedings{anastasi-etal-2024-vida, title = {{VIDA: The Visual Incel Data Archive. A Theory-oriented Annotated Dataset To Enhance Hate Detection Through Visual Culture}}, author = {Anastasi, Selenia and Schneider, Florian and Fischer, Tim and Biemann, Chris}, booktitle = {The 8th Workshop on Online Abuse and Harms (WOAH)}, month = jun, year = 2024, address = {Mexico City, Mexico}, }

联系方式

问题咨询：如有关于VIDA数据集或其使用条款的问题，请联系Selenia Anastasi或Florian Schneider。

免责声明

内容敏感性：VIDA数据集包含敏感及可能具有冒犯性的内容。请谨慎处理数据，并始终以道德和负责任的方式使用。

搜集汇总

数据集介绍

构建方式

VIDA数据集的构建旨在深入研究在线极端主义社区中的视觉交流，特别是与厌女内容相关的视觉材料和互联网表情包。该数据集从两个主要的厌女社区（意大利语和英语社区）中收集了相关视觉材料，并通过内容、形式和立场（仇恨）的分类法进行精细标注，以提供丰富的上下文信息。这种构建方式不仅关注显性内容，还特别强调识别视觉交流中的隐含意义和文化参考，从而为研究极端主义内容提供了多层次的分析基础。

特点

VIDA数据集的主要特点在于其多模态性质和精细的标注体系。该数据集不仅包含视觉材料，还通过分类法对内容、形式和立场进行详细标注，使得研究者能够深入分析极端主义社区中的视觉文化。此外，VIDA特别关注视觉交流中的隐含意义和文化参考，这使得该数据集在识别和理解复杂的社会文化现象方面具有独特优势。由于其敏感性，VIDA的访问受到严格控制，确保数据的使用符合伦理和法律要求。

使用方法

VIDA数据集主要用于非商业研究目的，旨在帮助研究者深入理解极端主义内容，并提升机器学习系统识别此类内容的能力。使用者需通过指定的访问请求表格申请数据集的使用权限，并遵守VIDA数据集的使用条款。在使用过程中，研究者应特别注意数据的敏感性和潜在的冒犯性内容，确保以负责任和伦理的方式进行研究。引用VIDA数据集时，需按照提供的引用格式进行标注，以确保学术诚信。

背景与挑战

背景概述

VIDA（The Visual Incel Data Archive）数据集由Selenia Anastasi、Florian Schneider、Tim Fischer和Chris Biemann等研究人员于2024年创建，旨在推动对在线极端主义社区中视觉交流的研究。该数据集汇集了与厌女内容相关的视觉材料和互联网表情包，主要来源于意大利和英语圈的两个主要incel社区。VIDA通过内容、形式和立场（仇恨）的分类法进行标注，提供了细粒度的上下文信息，特别关注于识别视觉交流中的隐含意义和文化参考。该数据集的发布旨在帮助研究人员深入理解极端主义内容，并提升机器学习系统识别此类内容的能力，对在线滥用和仇恨检测领域具有重要影响。

当前挑战

VIDA数据集在构建过程中面临多重挑战。首先，收集和标注与极端主义相关的视觉材料涉及敏感且可能具有攻击性的内容，要求研究人员在处理过程中保持高度的伦理和责任感。其次，识别视觉交流中的隐含意义和文化参考需要深入的文化理解和复杂的标注过程，增加了数据集构建的复杂性。此外，由于数据集的敏感性，VIDA实施了严格的访问控制，确保其仅用于非商业研究目的，这为数据的使用和共享带来了额外的管理挑战。

常用场景

经典使用场景

VIDA数据集的经典使用场景主要集中在对在线极端主义社区中视觉交流的研究。该数据集通过收集与厌女内容相关的视觉材料和互联网表情包，为研究者提供了深入分析极端主义内容的机会。其多模态特性使得研究者能够探索视觉内容中的隐含意义和文化参考，从而更全面地理解极端主义的传播机制。

衍生相关工作

VIDA数据集的发布激发了大量相关研究工作，特别是在仇恨言论检测和视觉文化分析领域。研究者们利用该数据集开发了多种先进的机器学习模型，用于识别和分类极端主义视觉内容。此外，该数据集还促进了跨学科的研究合作，包括心理学、社会学和计算机科学等领域，推动了对极端主义传播机制的更深入理解。

数据集最近研究