Mitsua/vroid-image-dataset-lite

Name: Mitsua/vroid-image-dataset-lite
Creator: Mitsua
Published: 2023-03-03 15:02:51
License: 暂无描述

Hugging Face2023-03-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Mitsua/vroid-image-dataset-lite

下载链接

链接失效反馈

官方服务：

资源简介：

VRoid Image Dataset Lite是一个用于训练文本到图像模型的数据集，所有材料均为CC0或适当许可，确保无版权问题。数据集包含随机设置的相机角度、姿势、肤色和面部表情等参数的图像输出。数据集还用于训练Mitsua Diffusion One模型，该模型是一个潜在的文本到图像扩散模型，其VAE和U-Net仅使用公共领域/CC0或获得使用许可的版权图像进行训练。数据集使用了多种VRoid模型、姿势和动作、着色器以及其他纹理，所有材料均符合CC0或适当许可。元数据描述包括颜色偏移、VRoid模型名称、姿势剪辑编号、相机配置文件、面部表情、光照、光照颜色、轮廓、卡通阴影、皮肤配置文件、注视标签、相机位置、相机旋转、相机视野、头发颜色偏移、眼睛颜色偏移、服装和配饰颜色偏移、地平面材料、左手手势、右手手势和天空盒等信息。完整数据集包含约60万张图像，仅限非商业研究目的提供。

VRoid Image Dataset Lite is a dataset designed for training text-to-image models. All materials in the dataset are licensed under CC0 or appropriate licenses, ensuring no copyright issues. The dataset includes image outputs with randomly configured parameters such as camera angles, poses, skin tones, and facial expressions. It is also used to train the Mitsua Diffusion One model, a latent text-to-image diffusion model whose VAE and U-Net are trained solely using public domain, CC0-licensed, or properly authorized copyrighted images. The dataset employs various VRoid models, poses and motions, shaders, and other textures, all of which are licensed under CC0 or appropriate licenses. The metadata descriptions cover color offset, VRoid model name, pose clip number, camera profile, facial expression, lighting, lighting color, contour, cel shading, skin profile, gaze label, camera position, camera rotation, camera field of view, hair color offset, eye color offset, clothing and accessory color offset, ground plane material, left-hand gesture, right-hand gesture, and skybox, among other information. The full dataset contains approximately 600,000 images and is only available for non-commercial research purposes.

提供机构：

Mitsua

原始信息汇总

VRoid Image Dataset Lite 概述

数据集基本信息

名称: VRoid Image Dataset Lite
语言: 英语（en）、日语（ja）
大小: 1K<n<10K
任务类别: 文本到图像（text-to-image）
许可证: Creative Open-Rail++-M License

数据集内容

模型: 使用VRoid模型，所有模型均为CC0许可。
- 包括VRoid Project、pastelskies、yomox9、くつした、ろーてク等作者的模型。
姿势和动作: 使用自定义姿势和Unity Humanoid AnimationClip - PoseCollection的免费版子集，已获得作者直接授权。
着色器: MToon（MIT），由开发团队进行了一些修改。
其他纹理: 使用Poly Haven和ambientCG提供的CC0纹理。

数据集特点

图像生成: 通过随机设置相机角度、姿势、肤色和面部表情等参数生成图像。
颜色变换: 应用于皮肤、头发、眼睛、衣物和配饰的独立颜色变换，以增加图像多样性。

元数据描述

元数据项: 包括模型名称、姿势编号、相机配置、面部表情、光照、光照颜色、轮廓、阴影、皮肤配置、视线标签等。
颜色变换参数: 使用HSV颜色模型进行颜色变换。

数据集可用性

完整数据集: 包含约600k图像，仅限于非商业研究目的，需提供1TB在线存储或发送1TB物理硬盘至东京办公室。

开发团队

开发: Abstract Engine dev team
特别感谢: Mitsua Contributors

搜集汇总

数据集介绍

构建方式

在数字内容创作领域，构建无版权争议的数据集对于推动生成式人工智能的发展至关重要。Mitsua/vroid-image-dataset-lite数据集的构建采用了系统化的流程，首先整合了来自VRoid项目的CC0授权三维角色模型，并获得了其他创作者授权使用的模型资源。通过随机化设置相机角度、姿态、肤色及面部表情等参数，结合MIT许可的MToon着色器及CC0授权的天空盒与地面纹理，生成了多样化的图像。所有素材均严格遵循开放许可协议，确保了数据在法律层面的纯净性，为模型训练提供了可靠的基础。

特点

该数据集的核心特点在于其彻底的版权合规性与高度的参数可控性。所有图像素材均来源于公共领域或经过明确授权，完全规避了版权风险，为商业与研究应用扫清了法律障碍。数据集通过精细的元数据标注，详细记录了每张图像的生成参数，如VRM模型名称、姿态剪辑编号、相机配置、光照条件及色彩偏移等，这些结构化信息使得数据具备极强的可追溯性与可重构性。此外，其作为更大规模数据集的精简子集，提供了高质量、多样化的样本，特别适用于文本到图像等生成模型的训练与验证。

使用方法

在计算机视觉与生成模型的研究中，该数据集为训练无版权风险的文本到图像模型提供了直接支持。使用者可通过解析数据集附带的丰富元数据，自行构建训练所需的图像-文本对。例如，结合`vrm_name`、`facial_expression`、`lighting`等字段信息，能够自动化生成描述性文本标签。数据集遵循CreativeML OpenRAIL++-M许可证，允许用户自由使用、修改模型权重并进行商业分发，但需严格遵守许可证中关于禁止生成非法或有害内容的规定，并在衍生作品中包含相同的使用限制条款。对于需要更大数据量的非商业研究，可联系开发者获取完整数据集。

背景与挑战

背景概述

在生成式人工智能迅猛发展的时代，文本到图像模型的训练常受限于版权问题，高质量且法律许可的数据集成为关键需求。Mitsua/vroid-image-dataset-lite数据集由Abstract Engine开发团队于近年创建，核心研究问题在于提供无版权争议的视觉素材，以支持扩散模型等生成技术的合法训练。该数据集基于CC0或授权许可的VRoid模型构建，通过随机化相机角度、姿态与肤色等参数生成图像，为Mitsua Diffusion One等模型提供训练基础，推动了开放许可数据在AI艺术生成领域的应用，增强了研究透明性与可重复性。

当前挑战

该数据集旨在解决文本到图像生成中版权合规性的核心挑战，确保模型训练不涉及非法内容，但面临数据多样性与真实性的平衡问题，例如在有限模型下生成足够变化的图像。构建过程中，挑战包括整合多源CC0模型与授权姿态数据的法律协调，以及通过颜色偏移等技术增强视觉多样性，同时需处理大规模数据存储与分发的物流难题，如全量数据集约60万图像的物理传输要求。

常用场景

经典使用场景

在生成式人工智能领域，文本到图像模型的训练常受限于版权问题，Mitsua/vroid-image-dataset-lite数据集通过提供完全基于CC0或授权许可的VRoid模型图像，为研究人员构建了一个无版权风险的训练环境。该数据集通过随机化相机角度、姿态、肤色和面部表情等参数，生成了多样化的图像样本，使其成为训练潜在扩散模型如Mitsua Diffusion One的理想资源，推动了开放数据在生成艺术中的标准化应用。

解决学术问题

该数据集有效解决了生成式AI研究中常见的版权合规性与数据多样性不足的学术难题。通过整合CC0许可的VRM模型和授权姿态数据，它确保了训练过程的合法性，同时其丰富的元数据标注支持了可控图像生成的研究。这为探索文本到图像模型的公平性、可解释性及跨域泛化能力提供了坚实基础，促进了人工智能伦理与技术创新之间的平衡。

衍生相关工作

基于此数据集衍生的经典工作包括Mitsua Diffusion One等潜在扩散模型，这些模型从零开始训练VAE和U-Net架构，专注于开放许可数据的利用。相关研究进一步拓展了可控生成技术，如通过元数据实现姿态与外观的精细调控，推动了生成模型在动画和虚拟角色领域的应用创新，并为后续的开放数据驱动AI项目设立了参考标准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集