Quick Draw Dataset

github2019-02-12 更新2024-05-31 收录

下载链接：

https://github.com/gasparian/quickdraw-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Quick Draw数据集是一个包含5000万幅绘画的集合，涵盖345个类别，由玩家在游戏Quick, Draw!中贡献。这些绘画被捕获为时间戳向量，并附有元数据，包括玩家被要求绘制的内容以及玩家所在国家的信息。

The Quick Draw dataset is a collection of 50 million drawings spanning 345 categories, contributed by players in the game Quick, Draw!. These drawings are captured as timestamped vectors and accompanied by metadata, including what the players were asked to draw and information about the players' countries.

创建时间：

2018-03-27

原始信息汇总

数据集概述

数据集名称

The Quick, Draw! Dataset

数据集内容

规模: 包含5000万张绘画。
类别: 分为345个类别。
数据格式: 原始数据以ndjson格式存储，每行包含一个绘画记录，包括唯一标识符、绘画提示词、是否被游戏识别、绘画创建时间、玩家所在国家代码以及绘画向量。

数据集结构

绘画记录格式: javascript { "key_id": "64-bit unsigned integer", "word": "string", "countrycode": "string", "timestamp": "datetime", "recognized": "boolean", "drawing": "JSON array representing the vector drawing" }
绘画向量格式: javascript [ [ // First stroke [x0, x1, x2, ...], [y0, y1, y2, ...], [t0, t1, t2, ...] ], [ // Second stroke [x0, x1, x2, ...], [y0, y1, y2, ...], [t0, t1, t2, ...] ], ... // Additional strokes ]

预处理数据集

简化绘画文件: 简化向量，移除时间信息，将数据定位并缩放到256x256区域，以ndjson格式存储。
二进制文件: 简化绘画和元数据以自定义二进制格式存储，提高压缩和加载效率。
Numpy位图文件: 所有简化绘画渲染为28x28灰度位图，以.npy格式存储。

数据获取

存储位置: 数据集存储于Google Cloud Storage，按类别分隔的ndjson文件。
访问方式: 可通过Google Cloud Console查看文件列表，或使用其他方法访问公共数据集。

Sketch-RNN QuickDraw数据集

数据用途: 用于训练Sketch-RNN模型。
数据格式: 存储为压缩的.npz文件，适合输入到循环神经网络。
数据选择: 从每个类别随机选择75K样本，其中70K用于训练，2.5K用于验证，2.5K用于测试。

许可证

数据集遵循Creative Commons Attribution 4.0 International license。

搜集汇总

数据集介绍

构建方式

Quick Draw Dataset 是通过收集 Quick, Draw! 游戏玩家的绘图数据而构建的。该数据集包含了来自全球各地玩家贡献的5000万幅绘图，涵盖了345个不同的类别。每幅绘图都记录了时间戳和矢量信息，并附有诸如绘制提示和玩家所在国家等元数据。构建过程中，采用了时间戳向量捕捉、类别标注和地理位置信息记录等方式，以确保数据的多元化和可用性。

特点

该数据集的特点在于其规模宏大、多样性丰富，且包含有时间戳和地理位置等丰富的元数据信息。数据以不同的格式提供，包括原始的 ndjson 文件、简化的 ndjson 文件、自定义的二进制格式文件以及 Numpy 位图文件，以适应不同的研究和应用需求。此外，数据集还提供了经过预处理的简化和标准化绘图，方便研究人员快速进行数据分析和模型训练。

使用方法

使用该数据集时，用户可以从 Google Cloud Storage 下载不同格式的数据文件。对于简化后的绘图数据，用户可以直接加载 Numpy 位图文件进行视觉化或模型训练。若需要原始的绘图向量数据，则可以选择 ndjson 或自定义的二进制格式文件。此外，数据集还提供了用于训练 Sketch-RNN 模型的处理后的数据，以支持深度学习应用。用户在使用数据集时，应遵守 Creative Commons Attribution 4.0 国际许可协议。

背景与挑战

背景概述

Quick Draw Dataset是一款由Google提供的包含5000万幅绘图的数据集，跨越345个类别。该数据集的构建起始于Quick, Draw!游戏，玩家在游戏中绘制图像，这些图像随后被捕获并转化为时间戳记的矢量图，同时附带包括绘制提示和玩家所在国家等元数据。此数据集的创建旨在为开发者、研究人员和艺术家提供一个探索、研究和学习的平台，对于理解人类绘画行为模式及文化差异具有显著的研究价值。Quick Draw Dataset自发布以来，在图像识别、机器学习和艺术创作等多个领域产生了广泛的影响。

当前挑战

尽管Quick Draw Dataset具有广泛的应用前景，但在使用过程中也面临一些挑战。首先，数据集在构建过程中需要处理来自不同设备和国家的绘图，这导致了绘图在边界框大小和点数上的巨大差异，从而增加了数据预处理和标准化的难度。其次，数据标注的一致性和准确性也是一个挑战，尽管数据集经过了个体审核，但可能仍包含不适当的内容。此外，如何有效地从矢量数据中提取特征，以及如何设计适用于大规模数据集的机器学习模型，也是研究者和开发者需要解决的问题。

常用场景

经典使用场景

Quick Draw Dataset作为一款囊括了全球玩家所绘制的五十亿幅画作的数据集，其经典使用场景主要集中于绘制识别与分类任务。研究人员可通过训练机器学习模型，使其能够识别玩家所绘制的对象，并准确归类至相应的类别中，进而提升模型的绘制识别能力。

衍生相关工作

基于Quick Draw Dataset，衍生出了众多相关工作，包括但不限于绘制风格迁移、绘制行为分析以及基于深度学习的绘制识别模型等。这些工作进一步扩展了数据集的应用范围，推动了相关领域的创新发展。

数据集最近研究