Visual Harmful Dataset 11K (VHD11K)

Name: Visual Harmful Dataset 11K (VHD11K)
Creator: 国立阳明交通大学
Published: 2024-10-02 16:44:40
License: 暂无描述

arXiv2024-10-02 更新2024-10-02 收录

下载链接：

https://github.com/nctu-eva-lab/VHD11K

下载链接

链接失效反馈

官方服务：

资源简介：

Visual Harmful Dataset 11K (VHD11K) 是由国立阳明交通大学和Netflix Eyeline Studios共同创建的综合性多模态有害内容数据集。该数据集包含10,000张图片和1,000个视频，涵盖10个有害类别，内容来源于互联网和4个生成模型。数据集的创建过程采用了多代理视觉问答（VQA）任务的注释框架，确保了注释的全面性和准确性。VHD11K旨在解决现有有害内容检测方法的局限性，特别是在广泛有害内容检测和边缘案例处理方面，为有害内容识别方法提供了更广泛和全面的训练数据。

Visual Harmful Dataset 11K (VHD11K) is a comprehensive multimodal harmful content dataset co-developed by National Yang Ming Chiao Tung University and Netflix Eyeline Studios. This dataset comprises 10,000 images and 1,000 videos, covering 10 categories of harmful content, with its sources including the Internet and 4 generative models. During the construction of VHD11K, the annotation framework based on multi-agent visual question answering (VQA) tasks was adopted to ensure the comprehensiveness and accuracy of annotations. VHD11K aims to resolve the limitations of existing harmful content detection methods, particularly in the detection of a wide spectrum of harmful content and the handling of edge cases, thereby providing more extensive and comprehensive training data for harmful content recognition methods.

提供机构：

国立阳明交通大学

创建时间：

2024-09-29

原始信息汇总

Visual Harmful Dataset 11K (VHD11K)

概述

数据集名称: Visual Harmful Dataset 11K (VHD11K)
数据类型: 图像和视频
数据量: 10,000张图像和1,000个视频
来源: 从互联网爬取和由4个生成模型生成
类别数量: 10个有害类别
注释框架: 多代理视觉问答（VQA）任务

评估

评估结果:
1. 注释框架与人类注释高度一致，确保了VHD11K的可靠性。
2. 数据集成功识别了现有有害内容检测方法的不足，并提升了有害性识别方法的性能。
3. 数据集在有害性识别方法上优于基线数据集SMID。

数据集下载

下载链接: VHD11K数据集
文件结构:

dataset_10000_10000 |-- croissant-vhd11k.json # VHD11K的元数据 |-- harmful_image_10000_ann.json # VHD11K有害图像的注释文件 |-- harmful_images_10000.zip # 10000张有害图像 |-- harmful_video_1000_ann.json # VHD11K有害视频的注释文件 |-- harmful_videos_1000.zip # 1000个有害视频 |-- ICL_samples.zip # 注释器中使用的上下文学习样本 |-- ICL_images # 上下文学习图像 |-- ICL_videos_frames # 每个上下文学习视频的帧

引用

@misc{yeh2024t2vsmeetvlmsscalable, title={T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition}, author={Chen Yeh and You-Ming Chang and Wei-Chen Chiu and Ning Yu}, year={2024}, eprint={2409.19734}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2409.19734}, }

搜集汇总

数据集介绍

构建方式

VHD11K数据集的构建融合了互联网爬取和生成模型生成的图像与视频，共计10,000张图片和1,000段视频，涵盖10个有害类别。数据集的构建过程包括从互联网和四个生成模型中收集原始数据，并通过多代理视觉问答（VQA）任务进行标注。具体而言，使用三个预训练的视觉语言模型（VLMs）作为标注者，分别扮演‘法官’、‘肯定辩论者’和‘否定辩论者’的角色，通过两轮辩论来决定图像或视频是否有害。这种辩论过程确保了VLMs在做出决策前充分考虑了图像或视频的上下文和双方的论点，从而减少了边缘案例中的误判可能性。

使用方法

VHD11K数据集适用于训练和评估有害内容识别方法。用户可以通过提供的GitHub链接获取数据集和相关代码，进行模型训练和性能评估。数据集的标注信息和辩论过程记录为研究者提供了深入分析和改进模型的机会。建议在使用数据集时，结合多代理辩论的标注框架，以充分利用其丰富的上下文信息和详细的标注理由，从而提升有害内容识别的准确性和可靠性。

背景与挑战

背景概述

在当今数字化时代，视觉数据占据了互联网流量的82%以上，然而，这种广泛访问也增加了未成年人接触有害或不适当内容的风险，凸显了有效识别方法的迫切需求。随着生成模型的快速发展，创建和传播有害内容变得更加容易，这进一步强调了开发检测合成有害材料方法的重要性。为了应对这一问题，研究人员提出了包含多种有害内容的数据集，并结合机器学习方法进行检测。然而，现有数据集存在局限性，如仅涵盖有限范围的有害对象，且主要来自真实有害内容源，这限制了基于这些数据集的方法的泛化能力，并可能导致某些情况下的误判。因此，我们提出了一个全面且广泛的有害数据集——Visual Harmful Dataset 11K (VHD11K)，该数据集包含10,000张图像和1,000个视频，涵盖10个有害类别，旨在解决现有数据集的局限性，提升有害内容识别方法的性能。

当前挑战

VHD11K数据集的构建面临多重挑战。首先，所解决的领域问题——有害内容识别——本身具有复杂性和模糊性，现有方法在检测广泛有害内容方面存在不足。其次，数据集构建过程中遇到的挑战包括从互联网和生成模型中爬取和生成数据的难度，以及确保数据多样性和代表性的问题。此外，有害内容的定义复杂，且有时模糊，现有数据集主要关注检测有害对象，而忽略了整个图像的上下文，这可能导致某些情况下的误判。最后，大多数现有有害内容数据集主要包含真实世界的图像，忽视了有害视频和合成有害内容的重要性。为了应对这些挑战，VHD11K数据集采用了多代理视觉问答（VQA）任务的注释框架，确保视觉语言模型在做出决策前充分考虑图像或视频的上下文和双方论点，从而减少边缘案例中的误判。

常用场景

经典使用场景

VHD11K数据集的经典使用场景主要集中在视觉有害内容的识别与分类。该数据集通过整合来自互联网和生成模型的10,000张图像和1,000个视频，涵盖了10个有害类别，为机器学习方法提供了丰富的训练和测试资源。研究者可以利用这一数据集开发和验证有害内容检测算法，特别是在多模态理解和生成模型领域，以提升对有害内容的识别准确性和泛化能力。

解决学术问题

VHD11K数据集解决了现有有害内容数据集在覆盖范围和定义上的局限性，为学术研究提供了更全面和广泛的有害内容识别基准。通过引入多模态数据和复杂的标注框架，该数据集显著提升了有害内容检测方法的性能和可靠性，特别是在处理边缘案例和模糊定义时。这不仅推动了有害内容识别技术的发展，还为相关领域的研究提供了新的视角和方法。

实际应用

在实际应用中，VHD11K数据集可用于开发和优化在线平台的内容审核系统，帮助识别和过滤有害内容，保护用户免受不当内容的侵害。此外，该数据集还可应用于教育领域，用于培训和测试内容审核人员的技能，提升其对有害内容的识别能力。通过这些应用，VHD11K数据集在维护网络环境安全和促进健康内容传播方面发挥了重要作用。

数据集最近研究