Vtuber-Vup-Dataset

github2022-12-21 更新2024-05-31 收录

下载链接：

https://github.com/yuunnn-w/Vtuber-Vup-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个Vtuber和Vup（即虚拟主播）的目标检测（yolov）数据集仓库，包括18名Vtuber/Vups。数据集由小阳（我）建立并开源，数据来源是互联网以及各大主播在Bilibili的动态图片。数据集包含18位Vtuber/Vups，他们的类别名字如下：Nana7mi 七海娜娜米、DongXueLian 东雪莲、BingTangIO 冰糖IO、MieLi 咩栗、Diana 嘉然、Taffy 塔菲、DaSi 大思、MingQianNaiLv 明前奶绿、XiaoKe 小可学妹、XingTong 星瞳、TaoJiOvO 桃几OvO、LingYuan_yousa 泠鸢、ShenLeQiNai_KaguraNana 神樂七奈、MaoLei_Nyaru 猫雷、KizunaAI 绊爱、AzI 阿梓、GZY_w 顾子韵、Mayumi 麻尤米。另外，数据集还包含一些未指定标签的虚拟主播形象。

本数据集系由小阳创建并公开发布之虚拟主播与Vup（虚拟主播）目标检测（YOLOv）数据集存储库。该集包含18位虚拟主播与Vup，包括Nana7mi 七海娜娜米、DongXueLian 东雪莲、BingTangIO 冰糖IO、MieLi 咩栗、Diana 嘉然、Taffy 塔菲、DaSi 大思、MingQianNaiLv 明前奶绿、XiaoKe 小可学妹、XingTong 星瞳、TaoJiOvO 桃几OvO、LingYuan_yousa 泠鸢、ShenLeQiNai_KaguraNana 神樂七奈、MaoLei_Nyaru 猫雷、KizunaAI 绊爱、AzI 阿梓、GZY_w 顾子韵、Mayumi 麻尤米等，其类别名称亦附有详尽说明。此外，数据集亦收录部分未明确标注标签的虚拟主播形象。数据来源涵盖互联网及各大主播在Bilibili平台的动态图片资源。

创建时间：

2022-12-09

原始信息汇总

数据集概述

数据集名称

虚拟主播数据集(Vtuber&Vup Dataset)

数据集创建者

小阳（Xiaoyang）

数据集目的

用于Vtuber和Vup（虚拟主播）的目标检测（yolov）训练。

数据集内容

包含18位Vtuber/Vups的图片，共计1904张。
训练集：1841张图片
测试集：63张图片
类别包括：Nana7mi七海娜娜米、DongXueLian东雪莲、BingTangIO冰糖IO、MieLi咩栗、Diana嘉然、Taffy塔菲、DaSi大思、MingQianNaiLv明前奶绿、XiaoKe小可学妹、XingTong星瞳、TaoJiOvO桃几OvO、LingYuan_yousa泠鸢、ShenLeQiNai_KaguraNana神樂七奈、MaoLei_Nyaru猫雷、KizunaAI绊爱、Az

搜集汇总

数据集介绍

构建方式

Vtuber-Vup-Dataset的构建过程主要依赖于互联网资源，特别是Bilibili平台上虚拟主播发布的动态图片。通过爬虫技术，作者从这些平台收集了大量图片，并经过人工筛选和清洗，剔除了重复和无意义的图片，最终选取了具有代表性的图像。数据集采用labelimg软件进行标注，标注格式为yolov格式，确保每一类图片与其标签存放在同一文件夹下。

特点

该数据集包含了18位虚拟主播的图像，总计1904张图片，其中1841张用于训练，63张用于测试。每个虚拟主播的图像数量差异较大，反映了不同主播的知名度和粉丝活跃度。此外，数据集不仅包含虚拟主播的官方形象，还收录了粉丝创作的二次创作作品，这为识别和分析虚拟主播的多样化形象提供了丰富的素材。

使用方法

Vtuber-Vup-Dataset适用于训练目标检测模型，特别是基于yolov5的模型。用户可以直接使用该数据集进行模型训练，具体方法可参考yolov5模型的官方文档。数据集中的图片和标签文件结构清晰，便于直接加载和使用。此外，由于数据集中包含大量二次创作作品，用户在使用时需注意模型对多样化形象的识别能力，必要时可进行数据增强或调整模型参数以提高分类效果。

背景与挑战

背景概述

Vtuber-Vup-Dataset是一个专注于虚拟主播目标检测的数据集，由小阳于2022年创建并开源。该数据集包含18位虚拟主播的1904张图片，其中1841张用于训练，63张用于测试。数据来源主要为Bilibili平台上的动态图片和谷歌搜索引擎，经过人工筛选和清洗，确保数据的代表性和多样性。该数据集的创建旨在为虚拟主播的目标检测提供高质量的训练数据，推动虚拟主播识别技术的发展。

当前挑战

Vtuber-Vup-Dataset面临的挑战主要体现在两个方面。首先，数据集的不平衡性较为显著，不同虚拟主播的图片数量差异较大，这可能导致模型在训练过程中对某些类别的识别效果不佳。其次，虚拟主播的形象在二创作品中变化多样且模糊，尤其是DongXueLian和LingYuan_yousa等类别，其分类效果较差，增加了模型训练的难度。此外，数据集的构建过程中，人工筛选和清洗图片的工作量较大，且需要确保数据的版权合规性，这些都为数据集的扩展和维护带来了挑战。

常用场景

经典使用场景

Vtuber-Vup-Dataset数据集在虚拟主播识别与分类领域具有重要应用。该数据集通过提供18位虚拟主播的1904张图片，支持目标检测模型的训练与优化。经典使用场景包括利用YOLOv5等深度学习模型进行虚拟主播的实时检测与识别，特别是在直播平台和社交媒体中，能够有效提升虚拟主播的识别精度和用户体验。

衍生相关工作

基于Vtuber-Vup-Dataset，研究者已开展了多项经典工作。例如，利用该数据集优化YOLOv5模型，显著提升了虚拟主播的检测精度；同时，部分研究还探索了虚拟主播形象的多模态识别方法，结合文本和图像信息，进一步提升了识别效果。这些工作为虚拟主播领域的算法研究与应用奠定了重要基础。

数据集最近研究