five

CyberHarem/yokoyama_nao_theidolmstermillionlive

收藏
Hugging Face2024-01-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CyberHarem/yokoyama_nao_theidolmstermillionlive
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个关于yokoyama_nao/横山奈緒(THE iDOLM@STER: Million Live!)的数据集,包含500张图片及其标签。图片来源于多个网站(如danbooru、pixiv、zerochan等),并通过DeepGHS团队的自动爬取系统获取。数据集的核心标签包括`brown_hair, ahoge, purple_eyes, side_ponytail, bangs, drill_hair, side_drill, sidelocks, hair_ornament, medium_hair, breasts, scrunchie, hair_scrunchie`。README文件还提供了数据集的下载链接和加载方法,特别是如何使用waifuc工具加载原始数据集。
提供机构:
CyberHarem
原始信息汇总

数据集概述

数据集基本信息

  • 名称: yokoyama_nao/横山奈緒 (THE iDOLM@STER: Million Live!)
  • 许可证: MIT
  • 任务类别: text-to-image
  • 标签: art, not-for-all-audiences
  • 大小类别: n<1K

数据集内容

  • 描述: 包含500张图片及其标签,图片来源于多个网站如danbooru, pixiv, zerochan等。
  • 核心标签: brown_hair, ahoge, purple_eyes, side_ponytail, bangs, drill_hair, side_drill, sidelocks, hair_ornament, medium_hair, breasts, scrunchie, hair_scrunchie

数据集包列表

名称 图片数量 大小 类型 描述
raw 500 409.35 MiB Waifuc-Raw 原始数据,包含元信息(最小边对齐到1400像素,如果更大)
800 500 303.55 MiB IMG+TXT 短边不超过800像素的图片和文本数据集
stage3-p480-800 1169 614.37 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素
1200 500 387.27 MiB IMG+TXT 短边不超过1200像素的图片和文本数据集
stage3-p480-1200 1169 748.83 MiB IMG+TXT 3阶段裁剪数据集,区域不小于480x480像素

标签聚类结果

原始文本版本

# 样本数量 图片示例 标签
0 7 1girl, looking_at_viewer, maid_headdress, solo, puffy_short_sleeves, wrist_cuffs, blush, white_background, enmaided, medium_breasts, pink_bowtie, smile, waist_apron, white_shirt, collared_shirt, frilled_apron, frilled_cuffs, heart_hands, long_hair, pink_dress, skirt, upper_body, white_apron
1 6 1girl, looking_at_viewer, solo, blush, tongue_out, long_hair, smile, food, white_background
2 50 1girl, black_shirt, solo, blue_scrunchie, short_sleeves, star_print, blush, looking_at_viewer, t-shirt, smile, print_shirt, open_mouth, wrist_scrunchie, star_necklace, simple_background, upper_body
3 6 1girl, blush, looking_at_viewer, solo, long_hair, medium_breasts, nipples, open_mouth, :d, completely_nude, barefoot, collarbone, navel, white_background
4 16 1girl, solo, looking_at_viewer, bare_shoulders, blush, earrings, necklace, smile, flower, upper_body, strapless_dress, cleavage, collarbone, medium_breasts, pink_dress, bracelet, open_mouth
5 14 1girl, solo, looking_at_viewer, blush, medium_breasts, open_mouth, cleavage, collarbone, navel, smile, side-tie_bikini_bottom, cowboy_shot
6 8 1boy, 1girl, blush, hetero, penis, sex, solo_focus, sweat, vaginal, female_pubic_hair, open_mouth, completely_nude, mosaic_censoring, nipples, spread_legs, on_back, pov, bar_censor, cum_in_pussy, medium_breasts, missionary, navel
7 5 1girl, kneehighs, looking_at_viewer, plaid_skirt, school_uniform, solo, wing_collar, holding, long_sleeves, miniskirt, pleated_skirt, red_skirt, white_shirt, black_socks, blue_scrunchie, blush, brown_footwear, dress_shirt, full_body, loafers, open_mouth, red_necktie, simple_background, standing, bag, blazer, grey_jacket, grey_sweater, grin, open_jacket, sitting, striped, v-neck, white_background, white_jacket, white_socks, wrist_scrunchie
8 6 1girl, looking_at_viewer, school_uniform, short_sleeves, white_shirt, plaid_skirt, solo, wing_collar, blue_necktie, blush, collared_shirt, dress_shirt, hair_bow, smile, blue_skirt, blurry, closed_mouth, hair_ribbon, miniskirt, open_mouth
9 5 1girl, black_choker, blue_shorts, blush, denim_shorts, heart-shaped_eyewear, long_sleeves, looking_at_viewer, midriff, navel, short_shorts, solo, standing, sunglasses, bracelet, crop_top, cutoffs, eyewear_on_head, necklace, simple_background, suspender_shorts, white_background, off-shoulder_shirt, single_thighhigh, star_(symbol), thigh_strap, white_thighhighs, wristband, yellow_jacket, black_footwear, blue_belt, boots, closed_mouth, cowboy_shot, cross-laced_footwear, full_body, garter_straps, grin, hair_bobbles, orange_shirt, purple_scrunchie, red-framed_eyewear, shoes, wrist_ribbon, wrist_scrunchie, yellow_shirt
10 6 1girl, looking_at_viewer, red_bow, smile, solo, white_gloves, white_shirt, miniskirt, sleeveless_shirt, blue_skirt, open_mouth, pleated_skirt, red_neckerchief, standing, armpits, back_bow, blush, cowboy_shot, hair_bow, holding, idol, medium_breasts, white_sailor_collar, white_shorts
11 6 1girl, blush, china_dress, looking_at_viewer, print_dress, solo, floral_print, holding, medium_breasts, black_dress, black_ribbon, hair_ribbon, open_mouth, sleeveless_dress, standing, :d, bamboo_steamer, baozi, bracelet, double_bun, side_slit, simple_background, white_background
12 7 1girl, blush, looking_at_viewer, one_eye_closed, smile, solo, wrist_cuffs, ;d, necktie, open_mouth, short_sleeves, character_name, choker, cowboy_shot, hair_bow, holding_microphone, midriff, navel, pink_shorts, simple_background, white_background
13 10 1girl, detached_collar, looking_at_viewer, playboy_bunny, strapless_leotard, cleavage, fake_animal_ears, rabbit_ears, solo, bare_shoulders, black_bowtie, black_leotard, white_background, wrist_cuffs, medium_breasts, open_mouth, pantyhose, simple_background, smile, blush, white_collar, collarbone, covered_navel, one_eye_closed
搜集汇总
数据集介绍
main_image_url
构建方式
在二次元角色图像生成领域,高质量、多风格的数据集是训练文本到图像模型的关键。该数据集聚焦于《偶像大师:百万现场!》中的角色横山奈緒,通过自动化爬虫系统从Danbooru、Pixiv、Zerochan等多个图像平台搜集图像,并由DeepGHS团队提供技术支持。原始数据包含500张图像及其对应的标签,核心特征标签如brown_hair、ahoge、purple_eyes等已被精简处理。数据集提供了多种处理版本,包括原始元数据包、短边不超过800或1200像素的标准化版本,以及经过三阶段裁剪、面积不小于480×480像素的增强版本,以满足不同训练需求。
使用方法
使用者可通过Hugging Face Hub直接下载所需版本的压缩包,例如原始数据集或裁剪后的版本。对于希望灵活加载原始数据的用户,推荐使用Waifuc库,通过下载dataset-raw.zip并解压后,利用LocalSource接口即可便捷地读取图像及其元数据标签。每个数据包均包含图像与对应的文本标签文件,可直接用于文本到图像模型的训练或微调。此外,标签聚类结果以表格形式提供,可用于分析角色在不同场景下的标签分布规律。
背景与挑战
背景概述
该数据集由DeepGHS团队于近期创建,聚焦于《偶像大师:百万现场!》中的角色横山奈绪(yokoyama_nao)。作为一款面向文本到图像生成任务的数据集,它收录了500张经过标注的图片,核心研究问题在于如何高效收集并组织特定动漫角色的多来源视觉素材,以支撑基于扩散模型等生成技术的精细化角色再现。数据集从Danbooru、Pixiv、Zerochan等多个平台自动爬取图像,并借助Waifuc工具实现标准化处理与标签管理,为二次元角色图像生成领域提供了高质量的训练样本。其影响力体现在为动漫风格的角色定制化生成任务建立了可复现的数据采集与标注范式,推动了虚拟角色在AI艺术创作中的精准表达。
当前挑战
当前数据集面临的核心挑战包括:首先,在领域问题层面,尽管数据集服务于文本到图像生成,但二次元角色图像的风格多样性(如不同画师的笔触、构图差异)与标签的语义粒度不足,导致生成模型难以在保持角色一致性的同时适应多变的艺术风格。其次,在构建过程中,自动爬取系统虽提升了效率,却引入了图像质量参差不齐、标签噪声(如误标或冗余标签)以及版权归属模糊等问题;此外,数据集规模较小(仅500张原始图像),且部分标签经过剪枝处理,可能丢失细微特征信息,限制了模型对角色细节(如发型、配饰)的泛化能力。
常用场景
经典使用场景
该数据集专为文本到图像生成任务设计,聚焦于二次元角色横山奈緒的形象建模。研究者和开发者可基于其提供的500张高精度标注图像,结合对应的标签体系,训练条件扩散模型或生成对抗网络,实现对该角色外貌特征(如褐色侧马尾、紫色眼眸)与风格化着装(如女仆装、校园制服)的精准复现。数据集中包含的裁剪版本(如stage3-p480-800)进一步支持多尺度训练,提升生成图像在不同分辨率下的细节保真度。
解决学术问题
在计算机视觉与图形学交叉领域,该数据集有效解决了动漫角色细粒度生成中的身份一致性难题。传统通用数据集(如Danbooru)常因角色间特征混淆导致生成结果失真,而本数据集通过严格的标签筛选与聚类分析,为跨模态对齐研究提供了干净、低噪声的样本空间。其标签聚类结果(如服饰风格分组)还促进了无监督语义分解方法的探索,推动了可控生成技术中属性解耦与组合泛化能力的发展。
实际应用
在实际应用中,该数据集支撑了二次元内容创作工具的智能化升级。游戏开发团队可基于其训练的角色生成模型,快速产出符合原设的立绘或表情差分素材,缩短美术资源迭代周期。虚拟主播与同人创作领域亦能受益,通过输入文本指令生成特定姿态或换装的角色图像,降低创作门槛。此外,数据集提供的多分辨率版本适配了移动端与云端推理场景,兼顾生成速度与视觉效果。
数据集最近研究
最新研究方向
该数据集聚焦于《偶像大师:百万现场!》中角色横山奈绪的二次元图像与标签资源,当前前沿研究方向集中于利用此类精细标注的动漫角色数据集推动文本到图像生成模型的领域适应与风格控制。随着LoRA、DreamBooth等微调技术的兴起,研究者借助此类高一致性、多分辨率裁剪(如stage3-p480-1200)的包体,探索角色身份保持、服饰聚类与场景迁移的生成能力。该数据集通过自动化爬虫与多源整合,为二次元角色生成、虚拟偶像内容创作及跨模态检索提供了标准化基准,其标签聚类结果(如女仆装、泳装、校服等)更促进了细粒度属性解耦与可控生成的研究,对数字娱乐与AIGC产业具有显著推动意义。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务