five

CyberHarem/theresa_arknights

收藏
Hugging Face2024-05-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/theresa_arknights
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个关于《明日方舟》角色Theresa/テレジア/特蕾西娅的数据集,包含111张图片及其标签。核心标签包括`long_hair, horns, pink_hair, very_long_hair, hair_between_eyes, breasts, red_eyes`,这些标签在数据集中被修剪。图片来源于多个网站(如danbooru、pixiv、zerochan等),由DeepGHS团队开发的自动爬取系统收集。数据集提供了原始数据和经过裁剪的数据集,并展示了如何使用waifuc加载原始数据集的代码示例。此外,README还列出了标签聚类结果的列表,包括原始文本版本和表格版本。

这是一个关于《明日方舟》角色Theresa/テレジア/特蕾西娅的数据集,包含111张图片及其标签。核心标签包括`long_hair, horns, pink_hair, very_long_hair, hair_between_eyes, breasts, red_eyes`,这些标签在数据集中被修剪。图片来源于多个网站(如danbooru、pixiv、zerochan等),由DeepGHS团队开发的自动爬取系统收集。数据集提供了原始数据和经过裁剪的数据集,并展示了如何使用waifuc加载原始数据集的代码示例。此外,README还列出了标签聚类结果的列表,包括原始文本版本和表格版本。
提供机构:
CyberHarem
原始信息汇总

数据集概述

基本信息

  • 名称: Dataset of Theresa/テレジア/特蕾西娅 (Arknights)
  • 包含内容: 111张图像及其标签
  • 核心标签: long_hair, horns, pink_hair, very_long_hair, hair_between_eyes, breasts, red_eyes
  • 许可证: MIT
  • 任务类别: text-to-image
  • 标签: art, not-for-all-audiences
  • 大小类别: n<1K

数据集包

名称 图像数量 大小 下载链接 类型 描述
raw 111 214.09 MiB 下载 Waifuc-Raw 包含元信息的原始数据(最小边对齐到1400像素)。
stage3-p480-1200 268 333.97 MiB 下载 IMG+TXT 三阶段裁剪数据集,区域不小于480x480像素。

数据集加载

  • 加载工具: waifuc

  • 加载代码示例: python import os import zipfile

    from huggingface_hub import hf_hub_download from waifuc.source import LocalSource

    zip_file = hf_hub_download( repo_id=CyberHarem/theresa_arknights, repo_type=dataset, filename=dataset-raw.zip, )

    dataset_dir = dataset_dir os.makedirs(dataset_dir, exist_ok=True) with zipfile.ZipFile(zip_file, r) as zf: zf.extractall(dataset_dir)

    source = LocalSource(dataset_dir) for item in source: print(item.image, item.meta[filename], item.meta[tags])

标签聚类结果

  • 示例:
    • 集群0: 7个样本,包含标签如1girl, black_footwear, full_body等。
    • 集群1: 52个样本,包含标签如1girl, solo, white_dress等。
搜集汇总
数据集介绍
main_image_url
构建方式
在数字艺术与动漫角色生成领域,数据集的构建需兼顾来源多样性与内容规范性。该数据集围绕手游《明日方舟》中的角色特蕾西娅展开,通过自动化爬虫系统从Danbooru、Pixiv、Zerochan等多个知名二次元图像平台系统性地采集原始图像,并借助Waifuc工具进行标准化处理。原始图像经过边缘对齐与尺寸调整,确保最小边长不低于1400像素,同时剔除角色核心标签以增强数据泛用性。此外,数据集还提供经过三阶段裁剪的衍生版本,所有裁剪区域均满足480×480像素的最低面积要求,为多尺度训练需求提供结构化支持。
特点
该数据集在动漫风格图像生成任务中展现出鲜明的专项性特征。其内容聚焦于单一角色特蕾西娅,共包含111张高质量原始图像及268张处理后样本,每幅图像均配有精细的语义标签,如发型、服饰、姿态等视觉属性。数据集通过聚类分析呈现角色在不同装扮下的分布规律,例如白裙、全身像等高频视觉模式,为风格化生成提供可解释的语义锚点。数据以原始元数据包与预处理图像包两种形式发布,兼顾了研究过程的可复现性与工程部署的便捷性。
使用方法
针对文本到图像生成模型的训练与微调,该数据集提供了多层次的技术适配方案。研究者可通过Hugging Face Hub直接下载压缩包,利用内置的Waifuc数据加载器解析原始图像及其元数据标签,实现端到端的预处理流水线。对于生成对抗网络或扩散模型训练,建议采用三阶段裁剪版本以获取尺寸规范的输入数据。数据集中提供的聚类标签表可作为提示词构造的参考框架,辅助生成具有特定服饰组合的角色图像。实验过程中可通过调整裁剪阈值与标签权重,探索角色特征在隐空间中的解耦表现。
背景与挑战
背景概述
在数字艺术与生成式人工智能蓬勃发展的时代,角色特异性图像数据集成为文本到图像生成模型精细化训练的关键资源。CyberHarem/theresa_arknights数据集由DeepGHS团队构建,专注于手机游戏《明日方舟》中的角色“特蕾西娅”。该数据集通过自动化爬虫系统,从Danbooru、Pixiv等多个知名艺术社区采集了111幅原始图像及标注,并提供了经过裁剪处理的增强版本。其核心在于为特定虚构角色的视觉特征学习提供高质量、多来源的标注数据,以支持个性化艺术创作与风格化图像生成的研究与应用,体现了垂直领域数据构建在AIGC技术深化发展中的重要性。
当前挑战
该数据集旨在解决特定虚构角色的高质量文本到图像生成问题,其挑战在于如何从风格迥异的同人艺术作品中,精准捕捉并表征角色的一致性与多样性,确保生成图像既符合角色核心特征又富有艺术变化。在构建过程中,面临多重挑战:一是多源数据整合的复杂性,需从不同平台爬取图像并统一处理元数据与标签格式;二是数据清洗与标注的难度,需在去除冗余通用标签的同时,保留对生成任务有效的视觉语义信息;三是数据质量的把控,需确保图像分辨率、内容适宜性满足模型训练要求,并应对艺术作品中常见的风格化变形问题。
常用场景
经典使用场景
在动漫风格图像生成领域,该数据集聚焦于《明日方舟》角色特蕾西娅的视觉呈现,通过精心标注的111张图像及其标签,为文本到图像生成模型提供了高质量的动漫角色训练素材。数据集经过裁剪与聚类处理,能够有效支持角色一致性生成、姿态与服饰细节还原等任务,成为动漫风格图像生成研究中的经典基准资源。
解决学术问题
该数据集针对动漫角色生成中存在的细节缺失与风格不一致问题,通过提供高精度标注的角色图像,助力研究者探索文本引导的图像合成技术。其标签系统与聚类分析为角色属性解耦、跨姿态生成等课题提供了数据基础,推动了生成对抗网络与扩散模型在动漫领域的应用深化,对提升生成图像的语义控制能力具有显著意义。
衍生相关工作
围绕该数据集衍生的研究多集中于动漫风格迁移与角色专属模型训练,例如基于标签的细粒度图像生成、角色姿态插值等技术探索。相关成果已应用于改进Stable Diffusion等开源模型的角色生成能力,并催生了针对动漫数据的预处理框架与评估标准,为垂直领域的生成模型优化提供了参考范例。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作