Quick, Draw! Dataset

github2019-05-04 更新2024-05-31 收录

下载链接：

https://github.com/kieranbrowne/quickdraw-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Quick, Draw!数据集是一个包含5000万幅画作的集合，涵盖345个类别，由玩家在游戏Quick, Draw!中创作。这些画作被捕获为时间戳向量，并附带元数据，包括玩家被要求绘制的类别和玩家所在国家的信息。

The Quick, Draw! dataset is a collection of 50 million drawings across 345 categories, created by players in the game Quick, Draw!. These drawings are captured as timestamped vectors and come with metadata, including the category the player was asked to draw and the country of the player.

创建时间：

2017-06-08

原始信息汇总

数据集概述

数据集名称

The Quick, Draw! Dataset

数据集内容

规模：包含5000万张绘画。
类别：涵盖345个类别，详细类别列表见categories.txt。
来源：由Quick, Draw!游戏玩家贡献。
数据格式：绘画以时间戳向量形式捕捉，附带元数据，包括玩家被要求绘制的类别及玩家所在国家。

数据集结构

元数据字段：
- key_id：64位无符号整数，唯一标识符。
- word：字符串，玩家被提示绘制的类别。
- recognized：布尔值，表示游戏是否识别该词。
- timestamp：日期时间，绘画创建时间。
- countrycode：字符串，玩家所在国家的两字母代码。
- drawing：字符串，表示向量绘画的JSON数组。

数据集格式

原始数据：以ndjson格式存储，每行包含一个绘画。
预处理数据：
- 简化绘画文件：简化向量，移除时间信息，调整并缩放到256x256区域，以ndjson格式输出。
- 二进制文件：简化绘画和元数据的定制二进制格式，用于高效压缩和加载。
- Numpy位图文件：所有简化绘画渲染为28x28灰度位图，以.npy格式存储。

数据集获取

存储位置：Google Cloud Storage。
文件列表：
- 原始文件：Raw files (.ndjson)。
- 简化绘画文件：Simplified drawings files (.ndjson)。
- 二进制文件：Binary files (.bin)。
- Numpy位图文件：Numpy bitmap files (.npy)。

Sketch-RNN QuickDraw Dataset

数据用途：用于训练Sketch-RNN模型。
数据格式：存储在压缩的.npz文件中，适合输入到循环神经网络。
数据选择：每个类别随机选择75K样本（70K训练，2.5K验证，2.5K测试）。
完整数据：每个类别的完整数据以.full.npz扩展名存储。

许可证

Creative Commons Attribution 4.0 International license。

搜集汇总

数据集介绍

构建方式

Quick, Draw! Dataset是由Quick, Draw!游戏玩家所绘制的5000万幅素描组成的集合。这些素描以时间戳记的矢量形式捕获，并附有包括玩家被要求绘制的对象和玩家所在国家等元数据标签。数据集的构建采取了将玩家绘制的内容进行数字化处理，并按照类别、国家代码等维度进行分类组织的方式，形成了易于研究者、开发者和艺术家探索、研究和学习的结构化数据。

特点

本数据集的特点在于其规模宏大，涵盖了345个类别的素描，每一幅素描都附有详细的元数据信息。数据以多种格式提供，包括原始的ndjson文件、简化的ndjson文件、自定义的二进制格式文件以及Numpy位图文件。此外，数据集还提供了经过预处理的版本，使得数据更加便于下载和探索。值得注意的是，数据集可能包含不适当的内容，尽管已经进行了个体审查。

使用方法

使用该数据集时，用户可以根据需求选择不同的文件格式。原始的ndjson文件包含了详细的矢量信息和时间戳，而简化的ndjson文件和二进制文件则提供了更高效的存储和加载方式。Numpy位图文件则方便用户直接在图像处理和机器学习领域中使用。用户可以通过Google Cloud Storage获取数据，并根据具体的应用场景选择合适的数据格式和处理工具。

背景与挑战

背景概述

Quick, Draw! Dataset是一款由Google推出的在线游戏Quick, Draw!收集而来的数据集，创建于2016年，旨在为用户提供一个快速绘制指定物体的平台。该数据集包含了5000万幅绘图，跨越345个分类，由全球各地的玩家贡献。这些绘图以时间戳向量的形式捕获，并附有包括绘图提示和玩家所在国家等元数据。Quick, Draw! Dataset的构建，不仅丰富了机器学习领域中图像识别和绘制模型的研究资源，也为艺术创作提供了新的可能性。

当前挑战

该数据集在研究领域中面临的挑战主要包括：一是数据标注的准确性问题，尽管每个类别都有明确的提示，但玩家绘制的图像可能存在较大的个体差异，导致模型识别的困难；二是数据集规模巨大，对计算资源和存储能力提出了较高的要求；三是不同设备上绘制的图像在分辨率和尺寸上存在差异，给图像处理和模型训练带来了额外的复杂性。此外，如何在保证数据隐私的前提下，有效利用这些数据，也是当前需要解决的问题之一。

常用场景

经典使用场景

在机器学习和计算机视觉研究领域，Quick, Draw! Dataset数据集的经典使用场景主要在于图像识别和生成模型的训练。该数据集包含大量手绘图像，为模型提供了丰富的学习样本，有助于提升算法的识别准确度和生成质量。

实际应用

实际应用中，Quick, Draw! Dataset被广泛用于开发智能绘图助手、图形识别工具和教育软件。例如，可以利用该数据集训练的模型识别用户的手绘输入，并提供相应的反馈或转换成标准图形。

衍生相关工作

基于Quick, Draw! Dataset，衍生出了一系列相关的工作，如Sketch-RNN模型，该模型能够学习绘制手绘图像的序列，进而生成新的手绘图像。此外，研究者们还利用该数据集探索用户行为模式、进行跨文化交流分析等研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集