five

colored-sketch pairs, popular pixiv images

收藏
github2024-05-09 更新2024-05-31 收录
下载链接:
https://github.com/jerryli27/pixiv_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
包含两个数据集:colored-sketch pairs包含6192对彩色和草图图像页id,用于训练神经网络模型进行草图着色任务;popular pixiv images包含268116个受欢迎的pixiv图像页id,通过标签xxx user入り收集。

This dataset comprises two distinct subsets: the 'colored-sketch pairs' subset contains 6,192 pairs of colored and sketch image page IDs, specifically curated for training neural network models in the task of sketch colorization. The 'popular pixiv images' subset includes 268,116 popular pixiv image page IDs, gathered through the tag 'xxx user入り'.
创建时间:
2017-06-07
原始信息汇总

数据集概述

本数据集包含两个与Pixiv相关的子数据集,主要用于训练神经网络模型进行草图上色任务。

文件描述

  1. popular_pixiv_image_ids.txt

    • 包含268,116个流行Pixiv图像页面的ID,通过标签“xxx user入り”收集,收集时间为3月4日至3月15日。每行包含一个Pixiv图像页面ID。
  2. colored_sketch_pair.csv

    • 包含6,192对彩色-草图图像页面ID,通过标签“塗ってみた”和“塗らせていただきました”收集。通过解析图像描述中的URL,并手动验证每一对是否为正确的彩色-草图图像对。错误率预计低于1%。
  3. pixiv_bookmark_list.txt

    • 用于抓取流行Pixiv图像的Pixiv书签列表。

数据集用途

数据集主要用于支持草图上色任务的研究,旨在降低数据收集的难度,促进更多人对草图上色任务及AI技术的兴趣。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集的构建方式主要通过从Pixiv平台收集图像页面ID,并利用特定的标签进行筛选。具体而言,colored-sketch_pair.csv文件中的6192对彩色与素描图像页面ID是通过使用标签“塗ってみた”和“塗らせていただきました”进行初步收集,随后解析图像描述中的URL,并通过人工逐一验证以确保每对图像确实对应彩色与素描图像。尽管存在少量错误配对,但预期错误率低于1%。
特点
该数据集的主要特点在于其独特性和稀缺性,是目前已知的唯一一个专门用于素描着色任务的数据集。数据集包含了6192对彩色与素描图像的配对,这些配对经过人工验证,确保了数据的高质量。此外,数据集还包含了268116个流行Pixiv图像页面ID,这些ID是通过特定标签收集的,具有较高的流行度和代表性。
使用方法
使用该数据集时,用户可以通过提供的Pixiv图像页面ID,利用PixivUtil2程序或自行编写的Pixiv爬虫工具进行批量下载。每个图像页面ID对应一个URL,用户可以通过访问该URL获取原始图像。需要注意的是,每个页面可能包含多张图像,且部分页面内容可能不适合工作场合浏览。数据集的MIT许可证允许用户自由使用和修改数据,但需注意图像的版权问题。
背景与挑战
背景概述
在计算机视觉领域,手绘草图的上色问题一直是研究的热点之一。colored-sketch pairs, popular pixiv images数据集由Jerry Li创建,旨在为神经网络模型的训练提供高质量的彩色草图对。该数据集的核心研究问题是如何通过机器学习算法实现草图的自动上色。数据集的构建始于2017年,主要通过解析Pixiv平台上的图像描述并手动验证图像对的有效性,确保了数据集的高质量。该数据集的发布不仅为草图上色任务提供了宝贵的资源,还推动了相关领域的研究进展,尤其是在AI艺术生成和图像处理领域。
当前挑战
该数据集在构建过程中面临诸多挑战。首先,数据收集依赖于Pixiv平台上的特定标签,这可能导致数据多样性受限。其次,手动验证每对图像的有效性耗时且容易出错,尽管错误率低于1%,但仍需进一步优化。此外,由于Pixiv平台的内容更新和政策变化,部分图像ID可能已失效,这为数据集的维护和更新带来了持续的挑战。最后,数据集的发布涉及版权和隐私问题,如何在确保合法性的前提下提供数据访问也是一个重要的考虑因素。
常用场景
经典使用场景
colored-sketch pairs, popular pixiv images数据集主要用于训练神经网络模型,以解决素描上色任务。该数据集包含了6192对彩色图像与对应素描图像的页面ID,这些图像对通过特定的标签和描述解析获得,经过人工验证确保其对应性。此数据集的经典使用场景在于为机器学习模型提供高质量的训练数据,以实现从素描到彩色图像的自动转换,这在艺术创作和图像处理领域具有重要意义。
解决学术问题
该数据集解决了素描自动上色这一学术研究中的重要问题。通过提供大量经过验证的彩色与素描图像对,研究者能够训练出更精确的模型,从而实现从黑白素描到彩色图像的自动转换。这一问题的解决不仅推动了计算机视觉和图像处理技术的发展,还为艺术创作提供了新的工具和方法,具有深远的学术和实际应用价值。
衍生相关工作
基于colored-sketch pairs, popular pixiv images数据集,许多相关研究和工作得以展开。例如,研究者们开发了多种深度学习模型,用于提高素描上色的准确性和效率。此外,该数据集还激发了在图像风格迁移、图像生成等领域的研究,推动了计算机视觉和人工智能技术的发展。这些衍生工作不仅丰富了学术研究的内容,也为实际应用提供了更多可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作