Quick Draw Dataset

github2020-06-17 更新2024-05-31 收录

下载链接：

https://github.com/AzureMentor/quickdraw-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Quick Draw数据集是一个包含5000万绘画的集合，涵盖345个类别，由玩家在Quick, Draw!游戏中贡献。这些绘画以时间戳向量的形式捕获，并附带元数据，包括玩家被要求绘制的类别和玩家所在国家的信息。

The Quick Draw Dataset is a collection of 50 million hand-drawn sketches spanning 345 distinct categories, contributed by players of the *Quick, Draw!* game. Each sketch is captured as a timestamp vector, with accompanying metadata including the target drawing category assigned to the player and the country where the player was located.

创建时间：

2020-05-20

原始信息汇总

The Quick, Draw! Dataset 概述

数据集描述

名称: The Quick, Draw! Dataset
别名: Quick Draw Dataset, quickdraw-dataset
描述: 该数据集包含5000万张来自345个类别的绘图，由Quick, Draw!游戏的玩家贡献。这些绘图以时间戳向量的形式捕获，并附有元数据，包括玩家被要求绘制的内容以及玩家所在的国家。
数据格式: 原始数据以ndjson文件格式提供，每个类别分开。

数据内容

元数据字段:
- key_id: 64位无符号整数，唯一标识所有绘图。
- word: 字符串，玩家被提示绘制的类别。
- recognized: 布尔值，表示游戏是否识别了该词。
- timestamp: 日期时间，绘图创建的时间。
- countrycode: 字符串，玩家所在地的两字母国家代码。
- drawing: 字符串，表示向量绘图的JSON数组。

预处理数据集

简化绘图文件 (.ndjson):
- 简化向量，移除时间信息，并将数据定位和缩放到256x256区域。
二进制文件 (.bin):
- 简化绘图和元数据的定制二进制格式，用于高效压缩和加载。
Numpy位图文件 (.npy):
- 所有简化绘图已渲染为28x28灰度位图，使用numpy格式。

数据获取

存储位置: 数据集存储在Google Cloud Storage上，按类别分隔的ndjson文件。
访问方式: 可通过Cloud Console查看文件列表，或使用其他方法访问公共数据集。

数据集使用

Sketch-RNN QuickDraw Dataset:
- 用于训练Sketch-RNN模型，数据存储在压缩的.npz文件中，格式适合输入到循环神经网络。

许可证

许可证: Creative Commons Attribution 4.0 International license

数据集元数据

提供者: Google
许可证: CC BY 4.0

搜集汇总

数据集介绍

构建方式

Quick Draw Dataset的构建源于Google的在线游戏“Quick, Draw!”，该游戏邀请全球用户绘制特定类别的简笔画。数据集包含了来自345个类别的5000万幅简笔画，每幅画作均以时间戳向量形式记录，并附有玩家被要求绘制的类别及其所在国家的元数据。这些数据经过人工审核，确保内容的质量和适宜性。

特点

该数据集的特点在于其丰富的多样性和广泛的覆盖范围。每幅画作不仅包含了绘制的向量数据，还记录了绘制的时间、地点以及是否被游戏识别的信息。此外，数据集提供了多种格式的数据，包括原始的ndjson文件、简化后的ndjson文件、二进制文件以及Numpy位图文件，便于不同需求的研究和开发。

使用方法

Quick Draw Dataset的使用方法多样，适用于机器学习、数据分析和艺术创作等多个领域。开发者可以通过Google Cloud Storage下载数据集，并使用提供的Python或Node.js示例代码进行数据处理。数据集特别适合用于训练和测试绘图分类模型，如TensorFlow中的Sketch-RNN模型。此外，数据集还可用于探索全球用户的绘图习惯和文化差异。

背景与挑战

背景概述

Quick Draw Dataset 是由 Google Creative Lab 于2017年发布的一个大规模手绘数据集，旨在为机器学习和计算机视觉领域的研究提供丰富的训练数据。该数据集包含了来自全球玩家在游戏《Quick, Draw!》中绘制的5000万幅手绘图，涵盖345个类别。每幅绘图以时间戳向量形式存储，并附带了包括绘图类别、玩家所在国家等元数据。该数据集的发布极大地推动了手绘识别、生成式模型以及跨文化绘图行为分析等领域的研究，成为相关领域的重要基准数据集之一。

当前挑战

Quick Draw Dataset 在应用过程中面临多重挑战。首先，手绘数据的多样性和复杂性使得模型在识别和生成任务中难以达到高精度，尤其是不同文化背景下的绘图风格差异显著。其次，数据集中包含大量噪声数据，尽管经过了人工审核，仍可能存在不适当或低质量的内容，这对模型的鲁棒性提出了更高要求。此外，数据预处理过程中，如何有效处理不同设备生成的绘图数据（如分辨率、绘图速度等差异）也是一个技术难点。最后，数据集的规模庞大，如何在保证数据质量的同时高效地进行存储、传输和处理，也是实际应用中需要解决的问题。

常用场景

经典使用场景

Quick Draw Dataset 作为全球最大的手绘数据集之一，广泛应用于机器学习和计算机视觉领域。其经典使用场景包括手绘图像分类、手绘生成模型训练以及手绘风格迁移等任务。通过该数据集，研究者能够训练模型识别不同类别的简笔画，并生成具有特定风格的手绘图像。

衍生相关工作

Quick Draw Dataset 衍生了许多经典研究工作，如 Sketch-RNN 模型，该模型通过学习手绘序列生成新的简笔画。此外，基于该数据集的研究还推动了手绘检索、手绘风格迁移等领域的发展。例如，SketchMate 模型通过深度哈希技术实现了百万级手绘图像的快速检索，而 Multi-graph Transformer 模型则提升了手绘识别的精度和鲁棒性。

数据集最近研究