Quick, Draw! Dataset

github2020-02-24 更新2024-05-31 收录

下载链接：

https://github.com/MingXu-CHN/quickdraw-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Quick, Draw!数据集是一个包含5000万幅绘画的集合，涵盖345个类别，由玩家在Quick, Draw!游戏中贡献。这些绘画被捕获为时间戳向量，并附带元数据，包括玩家被要求绘制的类别和玩家所在国家的信息。

The Quick, Draw! dataset is a collection of 50 million drawings across 345 categories, contributed by players in the Quick, Draw! game. These drawings are captured as timestamped vectors and come with metadata, including the category the player was asked to draw and the country of the player.

创建时间：

2020-02-24

原始信息汇总

数据集概述

数据集名称

名称: The Quick, Draw! Dataset
别名: Quick Draw Dataset, quickdraw-dataset

数据集描述

内容: 包含5000万幅来自345个类别的绘画，由玩家在游戏"Quick, Draw!"中创作。
数据类型: 时间戳向量，附带元数据，包括玩家被要求绘制的类别和玩家所在国家。
数据格式: 原始数据以ndjson格式提供，每行包含一个绘画。

数据集结构

元数据字段:
- key_id: 64位无符号整数，唯一标识符。
- word: 字符串，玩家被提示绘制的类别。
- recognized: 布尔值，表示游戏是否识别该词。
- timestamp: 日期时间，绘画创建时间。
- countrycode: 字符串，玩家所在国家的两字母代码。
- drawing: 字符串，表示向量绘画的JSON数组。

数据集预处理

简化绘画文件: 简化向量，移除时间信息，数据定位并缩放到256x256区域，以ndjson格式输出。
二进制文件: 简化绘画和元数据的定制二进制格式，用于高效压缩和加载。
Numpy位图文件: 所有简化绘画渲染为28x28灰度位图，以.npy格式存储。

数据集获取

存储位置: 谷歌云存储，按类别分隔的ndjson文件。
下载示例: 使用命令gsutil -m cp gs://quickdraw_dataset/full/simplified/*.ndjson .下载所有简化绘画。

数据集使用

Sketch-RNN QuickDraw Dataset: 用于训练Sketch-RNN模型，数据存储在压缩的.npz文件中，适合输入到循环神经网络。

数据集许可证

许可证: 创意共享署名4.0国际许可证 (CC BY 4.0)

搜集汇总

数据集介绍

构建方式

Quick, Draw! Dataset 是由 Google Creative Lab 构建的一个数据集，收集了 345 个类别的 5000 万幅绘图，这些绘图是由快画游戏 (Quick, Draw!) 的玩家贡献的。数据集中的绘图以时间戳向量的形式捕获，并附有包括绘图提示和玩家所在国家在内的元数据标签。构建过程中，数据以 'ndjson' 格式存储，每个绘图包含一个唯一标识符、绘图类别、是否被游戏识别、时间戳、国家代码以及绘图的 JSON 数组表示。

使用方法

用户可以通过 Google Cloud Storage 下载数据集的各种格式文件。使用前，用户应阅读相应的元数据和说明，了解数据结构。对于简化绘图文件和二进制文件，提供了相应的解析器示例代码。此外，用户可以利用 TensorFlow 教程来训练自己的绘图分类器，并使用 TensorFlow.js 在浏览器中运行模型。

背景与挑战

背景概述

The Quick, Draw! Dataset，作为一项由Google Creative Lab发起的在线游戏项目，收集了全球范围内玩家所绘制的约5000万幅素描。该数据集创建于2016年，旨在为开发者、研究人员和艺术家提供一个丰富的资源库，以探索、研究和学习。Quick, Draw! Dataset涵盖了345个类别，每一幅素描都以时间戳向量的形式记录，并附有关于绘制内容和绘制者所在国家的元数据。这一数据集在图像识别、机器学习和艺术创作等领域产生了广泛的影响，为相关研究提供了宝贵的数据资源。

当前挑战

尽管Quick, Draw! Dataset在规模和多样性上具有显著优势，研究者和开发者在使用该数据集时仍面临一些挑战。首先，数据集中可能包含的不适当内容需要通过预处理进行筛选。其次，由于绘制行为的个体差异，数据的标注和质量控制是一个难点。此外，数据集在构建过程中，如何处理不同设备造成的素描尺寸和密度的差异，以及如何有效地压缩和存储大规模数据，也是需要解决的问题。

常用场景

经典使用场景

The Quick, Draw! Dataset 经典使用场景在于训练和评估绘画识别模型。研究者可以利用该数据集进行机器学习算法的训练，以实现对绘画作品进行自动分类和识别。此外，该数据集也常用于研究不同文化背景下人类绘画习惯的差异，以及探索绘画创作过程中的认知行为。

解决学术问题

该数据集解决了在图像识别领域中，特别是绘画作品识别的难题。通过提供大量带有标签的绘画数据，研究者能够训练出更精确的模型来识别和分类绘画作品，从而推动了计算机视觉和机器学习领域的发展。同时，它也帮助研究者理解人类绘画的普遍性和多样性，为心理学和认知科学提供了宝贵的数据资源。

实际应用

在实际应用中，Quick, Draw! Dataset 可用于开发绘画识别相关的应用，如智能绘图软件、教育辅助工具以及在线艺术平台的自动分类系统。此外，该数据集也被应用于增强现实和虚拟现实技术中，为用户提供更为丰富的交互体验。

数据集最近研究