Visual Harmful Dataset 11K (VHD11K)|有害内容检测数据集|视觉问答数据集

arXiv2024-10-02 更新2024-10-02 收录

有害内容检测

视觉问答

下载链接：

https://github.com/nctu-eva-lab/VHD11K

下载链接

链接失效反馈

资源简介：

Visual Harmful Dataset 11K (VHD11K) 是由国立阳明交通大学和Netflix Eyeline Studios共同创建的综合性多模态有害内容数据集。该数据集包含10,000张图片和1,000个视频，涵盖10个有害类别，内容来源于互联网和4个生成模型。数据集的创建过程采用了多代理视觉问答（VQA）任务的注释框架，确保了注释的全面性和准确性。VHD11K旨在解决现有有害内容检测方法的局限性，特别是在广泛有害内容检测和边缘案例处理方面，为有害内容识别方法提供了更广泛和全面的训练数据。

提供机构：

国立阳明交通大学

创建时间：

2024-09-29

原始信息汇总

Visual Harmful Dataset 11K (VHD11K)

概述

数据集名称: Visual Harmful Dataset 11K (VHD11K)
数据类型: 图像和视频
数据量: 10,000张图像和1,000个视频
来源: 从互联网爬取和由4个生成模型生成
类别数量: 10个有害类别
注释框架: 多代理视觉问答（VQA）任务

评估

评估结果:
1. 注释框架与人类注释高度一致，确保了VHD11K的可靠性。
2. 数据集成功识别了现有有害内容检测方法的不足，并提升了有害性识别方法的性能。
3. 数据集在有害性识别方法上优于基线数据集SMID。

数据集下载

下载链接: VHD11K数据集
文件结构:

dataset_10000_10000 |-- croissant-vhd11k.json # VHD11K的元数据 |-- harmful_image_10000_ann.json # VHD11K有害图像的注释文件 |-- harmful_images_10000.zip # 10000张有害图像 |-- harmful_video_1000_ann.json # VHD11K有害视频的注释文件 |-- harmful_videos_1000.zip # 1000个有害视频 |-- ICL_samples.zip # 注释器中使用的上下文学习样本 |-- ICL_images # 上下文学习图像 |-- ICL_videos_frames # 每个上下文学习视频的帧

引用

@misc{yeh2024t2vsmeetvlmsscalable, title={T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition}, author={Chen Yeh and You-Ming Chang and Wei-Chen Chiu and Ning Yu}, year={2024}, eprint={2409.19734}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2409.19734}, }

AI搜集汇总

数据集介绍

构建方式

VHD11K数据集的构建融合了互联网爬取和生成模型生成的图像与视频，共计10,000张图片和1,000段视频，涵盖10个有害类别。数据集的构建过程包括从互联网和四个生成模型中收集原始数据，并通过多代理视觉问答（VQA）任务进行标注。具体而言，使用三个预训练的视觉语言模型（VLMs）作为标注者，分别扮演‘法官’、‘肯定辩论者’和‘否定辩论者’的角色，通过两轮辩论来决定图像或视频是否有害。这种辩论过程确保了VLMs在做出决策前充分考虑了图像或视频的上下文和双方的论点，从而减少了边缘案例中的误判可能性。

使用方法

VHD11K数据集适用于训练和评估有害内容识别方法。用户可以通过提供的GitHub链接获取数据集和相关代码，进行模型训练和性能评估。数据集的标注信息和辩论过程记录为研究者提供了深入分析和改进模型的机会。建议在使用数据集时，结合多代理辩论的标注框架，以充分利用其丰富的上下文信息和详细的标注理由，从而提升有害内容识别的准确性和可靠性。

背景与挑战

背景概述

在当今数字化时代，视觉数据占据了互联网流量的82%以上，然而，这种广泛访问也增加了未成年人接触有害或不适当内容的风险，凸显了有效识别方法的迫切需求。随着生成模型的快速发展，创建和传播有害内容变得更加容易，这进一步强调了开发检测合成有害材料方法的重要性。为了应对这一问题，研究人员提出了包含多种有害内容的数据集，并结合机器学习方法进行检测。然而，现有数据集存在局限性，如仅涵盖有限范围的有害对象，且主要来自真实有害内容源，这限制了基于这些数据集的方法的泛化能力，并可能导致某些情况下的误判。因此，我们提出了一个全面且广泛的有害数据集——Visual Harmful Dataset 11K (VHD11K)，该数据集包含10,000张图像和1,000个视频，涵盖10个有害类别，旨在解决现有数据集的局限性，提升有害内容识别方法的性能。

当前挑战

VHD11K数据集的构建面临多重挑战。首先，所解决的领域问题——有害内容识别——本身具有复杂性和模糊性，现有方法在检测广泛有害内容方面存在不足。其次，数据集构建过程中遇到的挑战包括从互联网和生成模型中爬取和生成数据的难度，以及确保数据多样性和代表性的问题。此外，有害内容的定义复杂，且有时模糊，现有数据集主要关注检测有害对象，而忽略了整个图像的上下文，这可能导致某些情况下的误判。最后，大多数现有有害内容数据集主要包含真实世界的图像，忽视了有害视频和合成有害内容的重要性。为了应对这些挑战，VHD11K数据集采用了多代理视觉问答（VQA）任务的注释框架，确保视觉语言模型在做出决策前充分考虑图像或视频的上下文和双方论点，从而减少边缘案例中的误判。

常用场景

经典使用场景

VHD11K数据集的经典使用场景主要集中在视觉有害内容的识别与分类。该数据集通过整合来自互联网和生成模型的10,000张图像和1,000个视频，涵盖了10个有害类别，为机器学习方法提供了丰富的训练和测试资源。研究者可以利用这一数据集开发和验证有害内容检测算法，特别是在多模态理解和生成模型领域，以提升对有害内容的识别准确性和泛化能力。

解决学术问题

VHD11K数据集解决了现有有害内容数据集在覆盖范围和定义上的局限性，为学术研究提供了更全面和广泛的有害内容识别基准。通过引入多模态数据和复杂的标注框架，该数据集显著提升了有害内容检测方法的性能和可靠性，特别是在处理边缘案例和模糊定义时。这不仅推动了有害内容识别技术的发展，还为相关领域的研究提供了新的视角和方法。

实际应用

在实际应用中，VHD11K数据集可用于开发和优化在线平台的内容审核系统，帮助识别和过滤有害内容，保护用户免受不当内容的侵害。此外，该数据集还可应用于教育领域，用于培训和测试内容审核人员的技能，提升其对有害内容的识别能力。通过这些应用，VHD11K数据集在维护网络环境安全和促进健康内容传播方面发挥了重要作用。

数据集最近研究

相关研究论文

1
T2Vs Meet VLMs: A Scalable Multimodal Dataset for Visual Harmfulness Recognition国立阳明交通大学 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性，12位男性)，以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情，歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常，强烈) 下产生的，另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位，48kHz .wav)，音频-视频 (720p H.264，AAC 48kHz，.mp4) 和仅视频 (无声音)。注意，Actor_18没有歌曲文件。

OpenDataLab 收录

红外谱图数据库

收集整理红外谱图实验手册等数据，建成了红外谱图数据库。本数据库收录了常见化合物的红外谱图。主要包括化合物数据和对应的红外谱图数据。其中，原始红外谱图都进行了数字化处理，从而使谱峰检索成为可能。用户可以在数据库中检索指定化合物的谱图，也可以提交谱图/谱峰数据，以检索与之相似的谱图数据，以协助进行谱图鉴定。

国家基础学科公共科学数据中心收录

CT-ORG

3D CT, 140 Cases, 6 Categories of Organ Segmentation.

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录