Linaqruf/pixiv-niji-journey

Name: Linaqruf/pixiv-niji-journey
Creator: Linaqruf
Published: 2023-01-10 03:32:36
License: 暂无描述

Hugging Face2023-01-10 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Linaqruf/pixiv-niji-journey

下载链接

链接失效反馈

官方服务：

资源简介：

Pixiv Niji Journey数据集是一个包含9766张图像及其元数据的集合，这些数据是从在线艺术平台Pixiv上抓取的。数据集分为原始和预处理两个版本。原始版本包含从Pixiv抓取的原始数据，而预处理版本则进行了额外的处理步骤，包括将图像从RGB转换为RGBA、使用BLIP工具为数据集添加标注、使用wd-v1-4-vit-tagger工具提供Danbooru标签，并进行了仔细的清理和过滤以去除低质量或不相关的图像。数据集中的图像为JPG和PNG格式，元数据以JSON格式提供，预处理后的元数据以.txt和.caption格式提供。该数据集主要用于与图像分类和生成相关的机器学习任务，但用户应注意数据集可能存在的偏见或限制，如Pixiv平台的偏见或用于收集数据的特定搜索词的偏见。

The Pixiv Niji Journey dataset is a collection of 9766 images and their metadata, scraped from the online art platform Pixiv. The dataset is split into two versions: raw and preprocessed. The raw version contains the original data directly scraped from Pixiv, while the preprocessed version undergoes additional processing steps, including converting images from RGB to RGBA, adding annotations to the dataset using the BLIP tool, providing Danbooru tags via the wd-v1-4-vit-tagger tool, and conducting careful cleaning and filtering to remove low-quality or irrelevant images. Images in the dataset are in JPG and PNG formats, with metadata provided in JSON format, while preprocessed metadata is available in .txt and .caption formats. This dataset is primarily used for machine learning tasks related to image classification and generation. However, users should be aware of potential biases or limitations in the dataset, such as biases inherent to the Pixiv platform or biases introduced by the specific search terms used for data collection.

提供机构：

Linaqruf

原始信息汇总

数据集概述

数据集名称

Pixiv Niji Journey

数据集描述

Pixiv Niji Journey数据集包含9766张图像及其元数据，这些图像是从在线艺术平台Pixiv上通过gallery-dl Python包使用搜索词"nijijourney"收集的。收集时间为2022年11月6日至2022年12月27日。

数据集变体

raw: 原始数据集，直接从Pixiv抓取的结果。
preprocessed: 经过预处理的数据集，包括将图像从RGB转换为RGBA，使用BLIP工具标注数据集，以及使用wd-v1-4-vit-tagger工具提供Danbooru标签。此外，还进行了仔细的清洗和过滤，以移除低质量或无关的图像。

文件格式

图像格式：JPG和PNG
元数据格式：JSON，预处理后的元数据格式为.txt和.caption

数据集结构

raw: nijijourney_pixiv_2022110620221222_raw.zip 包含 nijijourney/ 目录下的图像和JSON元数据文件。
preprocessed: nijijourney_pixiv_2022110620221222_preprocessed.zip 包含 dataset/ 目录下的图像、JSON元数据、.txt和.caption文件，以及多个元数据文件如 meta_cap.json, meta_dd.json, meta_clean.json。

数据集用途

主要用于机器学习任务，如图像分类和标题生成，也可用于图像生成模型如稳定扩散。

数据集限制

平台偏见：数据集可能受到Pixiv平台内容和用户贡献的偏见影响。
搜索词偏见：使用特定搜索词"nijijourney"可能导致数据集偏见。
有限范围：数据集仅包含从Pixiv抓取的图像，可能不代表更广泛范围的图像或艺术风格。
元数据可能存在错误或不一致。

许可协议

数据集根据AGPL-3.0许可证发布，允许用户自由使用、修改和分发数据集，但任何修改版本也必须根据相同的AGPL-3.0许可证发布。

引用格式

@misc{pixiv_niji_journey, author = {Linaqruf}, title = {Pixiv Niji Journey}, year = {2022}, publisher = {Hugging Face}, url = {https://huggingface.co/datasets/Linaqruf/pixiv-niji-journey}, }

搜集汇总

数据集介绍

构建方式

在数字艺术研究领域，Linaqruf/pixiv-niji-journey数据集的构建采用了从Pixiv平台抓取图像的方式，运用gallery-dl Python包针对特定搜索词进行数据收集。该数据集包含了从2022年11月6日至12月27日间收集的9766张图像及其元数据，分为未经处理的raw变体和经过预处理步骤的preprocessed变体。预处理包括色彩转换、自动标注和清理过滤等流程，确保了数据集的质量和可用性。

特点

该数据集的特点在于，它不仅提供了原始图像数据，还包含了丰富的元数据，如图像描述、标签等。所有图像均为JPG和PNG格式，元数据则以JSON、txt和caption格式存储。数据集旨在服务于图像分类、描述生成等机器学习任务，但用户需注意可能存在的平台偏见、搜索词偏见及范围限制等潜在问题。

使用方法

用户可以通过Hugging Face数据集集合下载该数据集，数据以ZIP格式提供，图像为PNG格式，元数据为JSON格式。使用该数据集无需特定要求或依赖，用户应遵循AGPL-3.0许可证的规定，合理使用、修改和分发数据集。在研究成果中引用该数据集时，应按照指定的格式进行标注。

背景与挑战

背景概述

在数字化艺术创作领域，图像数据集对于机器学习模型的训练至关重要。Pixiv Niji Journey数据集，由Linaqruf于2022年创建，汇集了从在线艺术平台Pixiv上抓取的9766张图像及其元数据。该数据集旨在服务于图像分类与标题生成等机器学习任务，亦可用于图像生成模型如稳定扩散模型的训练。Pixiv平台作为数据源，其内容多样性及用户贡献度为数据集带来了独特的视角，对相关领域的研究产生了积极影响。

当前挑战

尽管数据集在质量与一致性上经过了精心清洗与过滤，但仍面临诸多挑战。首先，数据集可能受到Pixiv平台的固有偏见影响，导致内容偏差。其次，数据收集所使用的搜索词‘nijijourney’可能引入了特定偏好，影响数据集的广泛性。此外，数据集范围有限，仅包含Pixiv平台上的图像，可能在艺术风格或图像类型上缺乏代表性。最后，元数据中可能存在错误或不一致性，需要在应用时仔细考量这些局限性。

常用场景

经典使用场景

在机器学习领域，Pixiv Niji Journey数据集被广泛应用于图像分类与标注任务。其丰富的图像及元数据资源，为深度学习模型的训练提供了坚实基础，尤其是对于图像标注与生成任务，该数据集提供了大量高质量的训练样本，助力算法模型的优化与提升。

解决学术问题

该数据集解决了图像分类与标注中样本质量不一、标签不精确等常见问题。通过精心筛选与预处理，数据集中的图像质量得到保证，标签的准确性也有所提高，为学术研究提供了更为可靠的数据基础。此外，该数据集的自由使用与修改权限，降低了学术研究的门槛。

衍生相关工作

基于Pixiv Niji Journey数据集，研究者们开展了一系列相关工作，如艺术风格迁移、图像情感分析等。这些研究不仅推动了计算机视觉技术的发展，也为艺术领域的研究提供了新的视角和工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集