Quick, Draw! Dataset

github2020-09-01 更新2024-05-31 收录

下载链接：

https://github.com/SadafShafi/quickdraw-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Quick, Draw!数据集是一个包含5000万幅绘画的集合，涵盖345个类别，由[Quick, Draw!](https://quickdraw.withgoogle.com)游戏的玩家贡献。这些绘画以时间戳向量的形式捕获，并附带元数据，包括玩家被要求绘制的内容以及玩家所在国家的信息。

The Quick, Draw! dataset is a collection of 50 million drawings across 345 categories, contributed by players of the [Quick, Draw!](https://quickdraw.withgoogle.com) game. These drawings are captured as timestamped vectors and come with metadata, including what the players were asked to draw and information about the players' countries.

创建时间：

2020-08-26

原始信息汇总

The Quick, Draw! Dataset 概述

数据集基本信息

名称: The Quick, Draw! Dataset
别名: Quick Draw Dataset, quickdraw-dataset
描述: 该数据集包含5000万张来自345个类别的绘画，由Quick, Draw!游戏的玩家贡献。这些绘画以时间戳向量的形式捕获，并附有包括玩家被要求绘制的类别和玩家所在国家的元数据。
示例绘画:

数据集内容

原始数据: 以ndjson格式提供，按类别分隔。

数据格式:

Key	Type	Description
key_id	64-bit unsigned integer	A unique identifier across all drawings.
word	string	Category the player was prompted to draw.
recognized	boolean	Whether the word was recognized by the game.
timestamp	datetime	When the drawing was created.
countrycode	string	A two letter country code of where the player was located.
drawing	string	A JSON array representing the vector drawing

示例: javascript { "key_id":"5891796615823360", "word":"nose", "countrycode":"AE", "timestamp":"2017-03-01 20:41:36.70725 UTC", "recognized":true, "drawing":[[[129,128,129,129,130,130,131,132,132,133,133,133,133,...]]] }

预处理数据:
- 简化绘图文件: 简化了向量，移除了时间信息，并将数据定位和缩放到256x256区域，以ndjson格式输出。
- 二进制文件: 以自定义二进制格式提供，用于高效压缩和加载。
- Numpy位图文件: 所有简化绘图已渲染为28x28灰度位图，以numpy .npy格式提供。
Sketch-RNN QuickDraw数据集: 用于训练Sketch-RNN模型的数据，存储在压缩的.npz文件中，格式适合输入到循环神经网络。

数据获取

存储位置: 数据集可在Google Cloud Storage上获取，按类别分隔的ndjson文件。
下载示例: 使用命令gsutil -m cp gs://quickdraw_dataset/full/simplified/*.ndjson .下载所有简化绘图。

许可证

许可证: Creative Commons Attribution 4.0 International license

数据集元数据

名称: The Quick, Draw! Dataset
描述: 该数据集包含5000万张来自345个类别的绘画，由Quick, Draw!游戏的玩家贡献。
提供者: Google
许可证: CC BY 4.0

搜集汇总

数据集介绍

构建方式

Quick, Draw! 数据集是通过全球玩家参与的游戏“Quick, Draw!”收集的，涵盖了345个类别的5000万幅手绘图像。每幅图像以时间戳向量的形式记录，并附有玩家被要求绘制的类别、所在国家等元数据。数据以`ndjson`格式存储，每条记录包含唯一的标识符、绘图类别、识别状态、时间戳、国家代码以及表示绘图的JSON数组。

特点

该数据集的特点在于其多样性和丰富性，涵盖了广泛的绘图类别，且每幅绘图均以矢量形式保存，便于进行机器学习和图像处理研究。数据集还提供了预处理版本，包括简化后的矢量图、二进制文件以及28x28的灰度位图，极大地方便了数据的加载和使用。此外，数据集还包含了全球玩家的绘图习惯和风格，为跨文化研究提供了宝贵资源。

使用方法

数据集可通过Google Cloud Storage下载，支持多种格式，包括原始`ndjson`文件、简化后的矢量图、二进制文件以及Numpy位图。用户可以使用提供的Python或Node.js示例代码加载和处理数据。此外，数据集还支持训练自定义绘图分类器，并提供了TensorFlow教程，帮助用户快速上手。对于研究人员和开发者，该数据集可用于探索手绘图像的生成、识别和分类等任务，具有广泛的应用前景。

背景与挑战

背景概述

Quick, Draw! 数据集由Google Creative Lab于2017年发布，旨在通过游戏化的方式收集全球用户的手绘草图数据。该数据集包含了来自345个类别的5000万幅手绘草图，每幅草图以时间戳向量形式存储，并附带了用户被要求绘制的类别、所在国家等元数据。这一数据集的创建不仅推动了手绘草图识别领域的研究，还为机器学习和人工智能模型提供了丰富的训练素材。其影响力不仅限于学术界，还延伸至艺术创作、数据可视化等多个领域，成为跨学科研究的重要资源。

当前挑战

Quick, Draw! 数据集在解决手绘草图识别问题时面临多重挑战。首先，草图数据的多样性和复杂性使得模型难以准确捕捉不同用户的绘画风格和习惯。其次，由于数据来源于全球用户，草图的绘制质量、设备差异以及文化背景的多样性进一步增加了数据处理的难度。在构建过程中，团队还需应对数据清洗、格式转换以及大规模数据存储与分发的技术挑战。此外，尽管数据集经过人工审核，仍可能存在不适当内容，这对数据的使用和模型训练提出了额外的伦理和技术要求。

常用场景

经典使用场景

Quick, Draw! 数据集在机器学习和计算机视觉领域中被广泛用于训练和测试手绘图像识别模型。其经典使用场景包括通过深度学习模型对用户绘制的简单图形进行分类，例如识别动物、日常物品或几何形状。该数据集的时间戳和地理位置信息还为研究不同文化背景下的绘画习惯提供了独特视角。

衍生相关工作

Quick, Draw! 数据集衍生了许多经典研究工作，例如 Sketch-RNN 模型，该模型通过学习手绘数据的分布生成新的绘画。此外，基于该数据集的深度哈希方法（如 SketchMate）在手绘图像检索任务中取得了显著成果。其他相关研究还包括多图变换器模型和自监督学习方法，这些工作进一步推动了手绘图像处理领域的发展。

数据集最近研究