hakatashi/hakatashi-pixiv-bookmark-deepdanbooru

Name: hakatashi/hakatashi-pixiv-bookmark-deepdanbooru
Creator: hakatashi
Published: 2023-08-07 05:38:17
License: 暂无描述

Hugging Face2023-08-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/hakatashi/hakatashi-pixiv-bookmark-deepdanbooru

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于训练基于个人偏好的pixiv艺术作品分类模型。数据集包含两个主要特征：tag_probs和class。tag_probs是每个标签的概率列表，预处理自RF5/danbooru-pretrained模型。class表示图像的分类标签，包括not_bookmarked（未收藏）、bookmarked_public（公开收藏）和bookmarked_private（私有收藏）。数据来源包括随机采样的图像、公开收藏的图像和私有收藏的图像。

提供机构：

hakatashi

原始信息汇总

数据集概述

数据集配置

配置名称: default
数据文件:
- 训练集: data/train-*
- 测试集: data/test-*
- 验证集: data/validation-*

数据集信息

特征:
- tag_probs: 序列，类型为float32，表示每个标签的概率。
- class: 分类标签，包含三个类别：
  - not_bookmarked (0): 未收藏的图像。
  - bookmarked_public (1): 公开收藏的图像。
  - bookmarked_private (2): 私人收藏的图像。
分割详情:
- 训练集: 179121个样本，占用4301053452字节。
- 测试集: 59707个样本，占用1433684484字节。
- 验证集: 59708个样本，占用1433708496字节。
下载大小: 7351682183字节
数据集大小: 7168446432字节

任务类别

图像分类
表格分类

大小类别

100K<n<1M

搜集汇总

数据集介绍

构建方式

在数字艺术领域，数据集的构建往往依赖于大规模图像资源的整合与标注。本数据集以Pixiv平台的艺术作品为基础，通过精心设计的筛选流程构建而成。其核心数据来源于animelover/danbooru2022数据集，从中随机抽取并过滤出带有Pixiv来源的图像，形成未收藏类别。同时，整合了用户hakatashi公开与私密收藏的图像，分别构成公开收藏与私密收藏两个类别。所有图像均经过RF5/danbooru-pretrained模型预处理，转化为6000个标签的概率序列，确保了数据表征的深度与一致性。

特点

该数据集在艺术图像分类领域展现出鲜明的特征。其核心在于将图像内容转化为高维语义标签的概率分布，即tag_probs特征，这为模型提供了丰富的语义信息。数据类别划分为未收藏、公开收藏与私密收藏三类，反映了用户对艺术作品的偏好层次。数据集规模适中，包含约30万条样本，并按6:2:2的比例划分为训练、测试与验证集，保证了评估的可靠性。此外，所有数据均源自Pixiv这一主流艺术社区，确保了内容的领域相关性与多样性。

使用方法

在机器学习应用中，该数据集主要用于图像分类任务的模型训练与评估。使用者可通过Hugging Face的datasets库直接加载数据集，其结构已预先划分为训练、测试与验证三个子集。每个样本包含tag_probs序列与class标签，前者可直接作为特征输入，后者则作为分类目标。研究人员可基于此构建分类模型，探索用户艺术偏好的预测方法。数据集的标准化格式便于与主流深度学习框架集成，支持端到端的训练流程，为数字艺术推荐与理解研究提供了便捷的实验平台。

背景与挑战

背景概述

在数字艺术与机器学习交叉领域，个性化内容推荐系统的研究日益受到关注。hakatashi/hakatashi-pixiv-bookmark-deepdanbooru数据集由研究者hakatashi于近年构建，旨在探索基于用户偏好的插画作品分类问题。该数据集依托于知名插画分享平台Pixiv，通过整合DeepDanbooru预训练模型生成的标签概率特征，构建了一个包含公开收藏、私人收藏及未收藏三类样本的分类任务。其核心研究聚焦于如何从大规模艺术作品的语义标签中提取用户偏好模式，为个性化艺术推荐算法提供了重要的基准数据，推动了数字艺术分析与推荐系统的发展。

当前挑战

该数据集致力于解决数字艺术领域的个性化偏好分类挑战，即如何准确区分用户对插画作品的收藏行为（公开、私人或未收藏）。构建过程中的主要挑战包括：首先，数据来源需从Danbooru2022数据集中筛选具有Pixiv来源的作品，并确保样本的代表性与平衡性；其次，用户偏好标签的获取依赖于个人收藏记录，可能引入主观偏差，且私人收藏数据规模相对有限；最后，特征提取依赖于预训练的DeepDanbooru模型，其标签体系的覆盖度与泛化能力直接影响分类性能，需处理高维稀疏的标签概率向量。

常用场景

经典使用场景

在数字艺术与机器学习交叉领域，该数据集为个性化图像分类任务提供了典型范例。其核心应用场景在于训练能够根据特定用户偏好对Pixiv平台上的插画作品进行自动分类的模型。通过整合DeepDanbooru预训练模型生成的标签概率向量与用户收藏行为的三元类别标注，该数据集构建了一个从大规模标注数据到个性化品味的映射桥梁，为研究艺术作品的语义理解与用户主观评价之间的关系奠定了数据基础。

衍生相关工作

该数据集的构建逻辑与数据范式，启发了后续一系列围绕个性化图像理解的研究。相关工作通常沿两个方向拓展：一是改进模型架构，利用深度神经网络更有效地融合标签概率与用户上下文信息；二是扩展应用场景，将类似的偏好学习框架迁移至其他视觉领域，如摄影、设计或时尚。这些工作共同深化了对‘审美计算’这一课题的认识，推动了人工智能在理解人类主观视觉体验方面的能力边界。

数据集最近研究