five

CyberHarem/angelina_arknights

收藏
Hugging Face2024-05-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/angelina_arknights
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个名为angelina/アンジェリーナ/安洁莉娜 (Arknights)的数据集,包含500张图片及其标签。数据集的核心标签包括`animal_ears, brown_hair, long_hair, fox_ears, twintails, hairband, red_hairband, red_eyes, breasts`,这些标签在数据集中被修剪。图片从多个网站(如danbooru, pixiv, zerochan等)爬取,爬取系统由DeepGHS团队提供支持。数据集提供了两种下载包:raw和stage3-p480-1200,分别包含500张和1298张图片。此外,README还提供了如何使用waifuc加载原始数据集的代码示例,并列出了标签聚类结果。

This is a dataset named angelina/アンジェリーナ/安洁莉娜 (Arknights), which contains 500 images and their corresponding tags. The core tags of the dataset include `animal_ears, brown_hair, long_hair, fox_ears, twintails, hairband, red_hairband, red_eyes, breasts`, and these tags are pruned in the dataset. The images were crawled from multiple websites such as danbooru, pixiv, zerochan, and the crawling system is powered by the DeepGHS team. The dataset provides two download packages: `raw` and `stage3-p480-1200`, which contain 500 and 1298 images respectively. In addition, the README provides code examples for loading the raw dataset using waifuc, and lists the tag clustering results.
提供机构:
CyberHarem
原始信息汇总

数据集概述

数据集名称

  • 名称: Dataset of angelina/アンジェリーナ/安洁莉娜 (Arknights)

数据集内容

  • 内容: 包含500张图像及其标签。
  • 核心标签: animal_ears, brown_hair, long_hair, fox_ears, twintails, hairband, red_hairband, red_eyes, breasts

数据集来源

  • 来源: 图像从多个网站(如danbooru, pixiv, zerochan等)爬取。
  • 爬取系统: 由DeepGHS Team提供技术支持。

数据集结构

  • 包列表:
    • 名称: raw

      • 图像数量: 500
      • 大小: 1014.42 MiB
      • 下载链接: raw数据集下载
      • 类型: Waifuc-Raw
      • 描述: 包含元信息的原始数据,最小边对齐到1400像素(如果更大)。
    • 名称: stage3-p480-1200

      • 图像数量: 1298
      • 大小: 1.59 GiB
      • 下载链接: stage3-p480-1200数据集下载
      • 类型: IMG+TXT
      • 描述: 三阶段裁剪数据集,区域不小于480x480像素。

数据集使用

  • 加载工具: 使用waifuc加载原始数据集。

  • 加载代码示例: python import os import zipfile from huggingface_hub import hf_hub_download from waifuc.source import LocalSource

    zip_file = hf_hub_download( repo_id=CyberHarem/angelina_arknights, repo_type=dataset, filename=dataset-raw.zip, )

    dataset_dir = dataset_dir os.makedirs(dataset_dir, exist_ok=True) with zipfile.ZipFile(zip_file, r) as zf: zf.extractall(dataset_dir)

    source = LocalSource(dataset_dir) for item in source: print(item.image, item.meta[filename], item.meta[tags])

数据集标签集群

  • 集群列表:
    • 示例集群:
      • 集群0: 包含17个样本,主要标签包括1girl, looking_at_viewer, open_jacket等。
      • 集群1: 包含18个样本,主要标签包括1girl, black_gloves, black_shorts等。
      • 集群2: 包含8个样本,主要标签包括1girl, black_shirt, black_shorts等。
      • 集群3: 包含5个样本,主要标签包括1girl, bare_shoulders, black_leotard等。
      • 集群4: 包含12个样本,主要标签包括1girl, bare_shoulders, black_dress等。
      • 集群5: 包含8个样本,主要标签包括black_shorts, cleavage, midriff等。
      • 集群6: 包含18个样本,主要标签包括1girl, bare_shoulders, casual_one-piece_swimsuit等。
      • 集群7: 包含6个样本,主要标签包括1girl, alternate_costume, white_shirt等。

数据集许可

  • 许可: MIT
搜集汇总
数据集介绍
main_image_url
构建方式
在数字艺术与游戏角色研究领域,CyberHarem/angelina_arknights数据集的构建体现了系统化采集与标注的严谨流程。该数据集聚焦于手游《明日方舟》中的角色安洁莉娜,通过自动化爬虫系统从Danbooru、Pixiv、Zerochan等多个知名二次元艺术平台抓取原始图像,并运用Waifuc工具进行标准化处理。初始收集的500张图像经过元数据对齐与边缘尺寸规范化(最小边统一缩放至1400像素),同时移除了角色核心标签(如动物耳朵、棕色长发等),以确保数据在保留艺术多样性的基础上具备结构化特征。后续通过三阶段裁剪流程生成增强版本,确保每张裁剪图像面积不低于480×480像素,最终形成包含1298张图像的优化集合,为角色视觉分析提供了多粒度数据基础。
特点
该数据集在游戏角色视觉表征研究中展现出鲜明的专题性与多层次结构。其核心在于围绕单一角色安洁莉娜构建高纯度图像集合,涵盖官方立绘、同人创作及多服饰变体,呈现了角色在多元艺术风格下的演绎。数据集通过标签聚类技术将图像划分为8个视觉主题集群(如常服、泳装、学院风等),每个集群均标注了精细的属性标签(如服装细节、姿态、背景),形成了语义丰富的注释体系。此外,数据以原始版本与预处理版本并行提供,既保留了完整的元信息与高分辨率原始数据,也提供了经尺寸标准化与裁剪的轻量级版本,兼顾了研究深度与计算效率的需求。
使用方法
在计算机视觉与生成式人工智能应用中,本数据集支持多种灵活的使用范式。研究者可通过Hugging Face Hub直接下载原始压缩包或预处理版本,并利用提供的Python代码示例,配合Waifuc数据加载工具,实现本地数据的结构化读取与元信息(如文件名、标签)提取。对于角色风格迁移、标签条件图像生成等任务,用户可依据聚类结果选择特定主题子集进行模型训练;而高分辨率原始图像则适用于细节敏感的视觉分析。数据集遵循MIT许可协议,允许学术与商业场景下的二次创作,但需注意部分内容涉及特定受众限制,在使用时应遵循相关平台的内容规范。
背景与挑战
背景概述
在数字艺术与生成式人工智能蓬勃发展的时代背景下,针对特定虚拟角色的高质量图像数据集成为驱动风格化文本到图像生成模型精细化训练的关键资源。CyberHarem/angelina_arknights数据集由DeepGHS团队构建并发布于HuggingFace平台,专注于手机游戏《明日方舟》中的角色“安洁莉娜”。该数据集系统性地爬取并整合了来自Danbooru、Pixiv等主流艺术社区的500幅标注图像,核心研究问题在于如何为单一动漫风格角色构建结构化的多姿态、多服饰视觉资料库,以支持角色一致性生成、风格迁移等下游任务,对二次元内容生成领域的模型微调与评估提供了重要的数据基准。
当前挑战
该数据集致力于解决动漫角色图像生成中角色特征保持与多样化姿态合成的核心挑战,其构建过程亦面临多重困难。在领域层面,生成模型需在维持安洁莉娜标志性特征(如狐耳、双马尾)的同时,精确捕捉其在不同场景、服装下的视觉细节,避免特征混淆或风格偏离。构建过程中,挑战主要源于数据源的异构性:自动化爬虫需处理不同社区各异的标签体系与图像质量标准,并有效去除冗余或低质量样本;同时,为提升模型训练效率,需对图像进行标准化裁剪与分辨率统一,并设计合理的标签修剪策略以平衡特征密度与模型泛化能力。
常用场景
经典使用场景
在动漫角色图像生成领域,CyberHarem/angelina_arknights数据集以其精细标注的安洁莉娜角色图像,为文本到图像生成模型提供了高质量的微调素材。该数据集通过爬取多个知名动漫艺术平台,整合了角色在不同姿态、服饰和场景下的视觉表现,使得生成模型能够学习到角色特征的稳定映射关系。经典应用场景包括训练扩散模型或生成对抗网络,以生成风格一致、细节丰富的二次元角色图像,满足动漫内容创作中对特定角色视觉一致性的需求。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在动漫风格图像生成的算法优化上。例如,基于标签聚类的条件生成对抗网络研究,通过利用数据集的层次化标签结构提升生成图像的细节保真度;此外,结合该数据集进行的跨域风格迁移研究,实现了从线稿到上色图像的自动化转换。这些工作不仅推动了动漫图像生成技术的发展,也为后续大规模角色专属数据集的构建提供了方法论参考。
数据集最近研究
最新研究方向
在动漫风格图像生成领域,CyberHarem/angelina_arknights数据集作为角色专属的视觉资源库,正推动着个性化内容生成的前沿探索。该数据集聚焦于《明日方舟》中的安洁莉娜角色,通过精细标注的500张图像及其标签,为生成对抗网络(GAN)和扩散模型提供了高质量的微调素材。当前研究热点集中于利用此类数据集进行角色一致性生成,旨在解决跨姿态、服饰和场景下角色特征的稳定保持问题。随着二次元文化在全球的持续扩散,此类数据集在促进风格化图像生成技术的民主化进程中扮演着关键角色,不仅为同人创作提供了技术支持,也为虚拟偶像和数字娱乐产业的视觉内容创新奠定了数据基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作