five

carbon225/vndb_img

收藏
Hugging Face2023-07-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/carbon225/vndb_img
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个🤗 Datasets加载器,用于加载vndb.org图像数据库的转储文件。它包含用户根据以下类别标记的动漫风格图像:性内容(安全/暗示/明确)和暴力内容(温和/暴力/残酷)。加载数据集需要手动下载数据文件,并按照指定的目录结构进行解压和加载。数据集的结构包括图像的索引、ID、尺寸、投票计数、性内容和暴力内容的平均评分和标准差、图像类型、性内容和暴力内容的分类标签、文件名、完整路径和图像数据。数据集支持的任务包括NSFW材料的图像分类、图像生成/超分辨率等。使用数据集时需要注意图像内容可能不适合所有观众。

这是一个🤗 Datasets加载器,用于加载vndb.org图像数据库的转储文件。它包含用户根据以下类别标记的动漫风格图像:性内容(安全/暗示/明确)和暴力内容(温和/暴力/残酷)。加载数据集需要手动下载数据文件,并按照指定的目录结构进行解压和加载。数据集的结构包括图像的索引、ID、尺寸、投票计数、性内容和暴力内容的平均评分和标准差、图像类型、性内容和暴力内容的分类标签、文件名、完整路径和图像数据。数据集支持的任务包括NSFW材料的图像分类、图像生成/超分辨率等。使用数据集时需要注意图像内容可能不适合所有观众。
提供机构:
carbon225
原始信息汇总

数据集概述

数据集名称

VNDB IMG

数据集描述

该数据集包含来自vndb.org的动漫风格图像数据库,用户根据以下类别标记图像:

  • 性内容:安全/暗示性/明确
  • 暴力:温和/暴力/残酷

数据集结构

数据集提供以下字段: python { index: datasets.Value(int32), id: datasets.Value(string), width: datasets.Value(int32), height: datasets.Value(int32), c_votecount: datasets.Value(int32), c_sexual_avg: datasets.Value(int32), c_sexual_stddev: datasets.Value(int32), c_violence_avg: datasets.Value(int32), c_violence_stddev: datasets.Value(int32), c_weight: datasets.Value(int32), type: datasets.ClassLabel(names=[character, cover, screenshot_full, screenshot_thumb]), sexual_class: datasets.ClassLabel(names=[safe, suggestive, explicit]), violence_class: datasets.ClassLabel(names=[tame, violent, brutal]), file_name: datasets.Value(string), full_path: datasets.Value(string), image: datasets.Image(), }

支持的任务

  • 图像分类(NSFW材料)
  • 图像生成/超分辨率等

使用数据注意事项

图像内容较为露骨,建议谨慎查看。

许可信息

数据集使用需要用户手动从vndb.org下载数据。所有VNDB信息遵循开放数据库许可。个别数据库内容的权利遵循数据库内容许可。部分内容(如动漫数据、图像、视觉小说描述和角色描述)可能受其他特定许可条件约束。

搜集汇总
数据集介绍
main_image_url
构建方式
在视觉艺术与数字媒体领域,数据集的构建往往依赖于社区驱动的开放资源。本数据集源自视觉小说数据库(vndb.org)的图像库转储,通过用户标注机制对动漫风格图像进行分类。构建过程涉及手动下载数据库转储文件,并利用rsync工具同步图像集合,随后通过解压缩与目录结构重组,形成包含元数据与图像文件的标准化数据源。这种构建方式确保了数据的原始性与完整性,同时遵循了开放数据库许可协议,为学术研究提供了可靠的图像素材基础。
特点
作为专注于动漫风格视觉内容的图像数据集,其核心特征体现在多维度的标注体系上。数据集不仅包含图像的基本属性如尺寸与类型,还集成了用户对性内容与暴力内容的精细分类,涵盖安全、暗示、明确以及温和、暴力、残酷等层级。这些标注基于社区投票统计生成,具有较高的可信度与一致性。此外,数据集规模介于十万至百万级别,覆盖角色、封面、全屏截图等多种图像类型,为内容分析与模型训练提供了丰富的结构化信息。
使用方法
在计算机视觉与内容分析研究中,本数据集适用于图像分类、生成与超分辨率等任务。使用前需遵循许可要求,手动下载原始数据并构建指定目录结构,随后通过HuggingFace Datasets库加载。数据加载后,用户可依据sexual_class与violence_class字段进行有监督学习,或利用image字段进行生成式模型训练。鉴于数据包含成人内容,建议在受控研究环境中使用,并避免直接查看原始图像,以确保符合伦理规范与学术用途。
背景与挑战
背景概述
视觉小说数据库图像数据集(VNDB IMG)由社区驱动平台vndb.org于近年构建,其核心研究问题聚焦于动漫风格图像的内容分级与分类。该数据集依托用户标注机制,针对图像中的性暗示与暴力内容进行多维度标注,为数字媒体内容审核与生成模型训练提供了关键数据支撑。在动漫与视觉小说研究领域,VNDB IMG通过结构化标注体系,推动了内容感知计算模型的发展,并为跨模态艺术分析开辟了新路径。
当前挑战
该数据集旨在解决动漫图像中敏感内容自动识别的挑战,其难点在于性暗示与暴力场景的语义模糊性,以及文化语境差异导致的标注主观性。构建过程中面临多重障碍:原始数据需手动从分散网络源采集,涉及复杂版权与伦理审查;用户标注的一致性难以保障,需通过加权投票机制平衡分歧;图像格式与标注标准的异构性增加了数据清洗与归一化的复杂度。
常用场景
经典使用场景
在视觉媒体内容分析领域,VNDB IMG数据集以其丰富的动漫风格图像资源,为研究者提供了探索图像分类任务的宝贵素材。该数据集涵盖了用户标注的性内容和暴力内容类别,使得经典使用场景聚焦于多标签图像分类模型的训练与评估。通过利用这些精细的标注数据,研究者能够构建和优化算法,以自动识别图像中的敏感内容,从而推动计算机视觉在内容过滤方面的进展。
衍生相关工作
基于VNDB IMG数据集,衍生了一系列经典研究工作,主要集中在图像分类和生成领域。例如,研究者利用该数据集开发了高效的NSFW内容检测模型,这些模型在动漫图像分析中表现出色。同时,数据集也启发了图像生成任务的相关研究,如通过对抗生成网络(GAN)生成动漫风格图像,推动了计算机视觉与艺术创作的交叉融合。
数据集最近研究
最新研究方向
在视觉艺术与数字媒体领域,VNDB IMG数据集凭借其丰富的动漫风格图像资源,为内容安全与图像生成研究提供了重要支撑。该数据集标注了性内容与暴力程度的分类标签,使其在NSFW图像检测算法开发中成为关键基准,助力提升自动化内容审核的精准度。随着生成式人工智能技术的兴起,该数据集亦被用于训练图像超分辨率与风格迁移模型,推动动漫视觉质量的提升。相关研究还关注用户标注数据的可靠性,探索如何利用众包标签优化机器学习模型的泛化能力,对数字娱乐产业的健康发展具有深远影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作