Quick, Draw! Dataset

github2024-05-23 更新2024-05-31 收录

下载链接：

https://github.com/googlecreativelab/quickdraw-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Quick, Draw!数据集是一个包含5000万幅绘画的集合，涵盖345个类别，由玩家在游戏Quick, Draw!中贡献。这些绘画以时间戳向量的形式捕捉，并附有包括玩家被要求绘画的内容和玩家所在国家的元数据。

The Quick, Draw! dataset is a collection of 50 million drawings across 345 categories, contributed by players in the game Quick, Draw!. These drawings are captured as timestamped vectors and are accompanied by metadata including what the players were asked to draw and the countries of the players.

创建时间：

2017-05-10

原始信息汇总

The Quick, Draw! Dataset 概述

数据集基本信息

名称: The Quick, Draw! Dataset
别名: Quick Draw Dataset, quickdraw-dataset
描述: 该数据集包含5000万幅来自345个类别的绘画，由Quick, Draw!游戏的玩家贡献。这些绘画以时间戳向量的形式捕获，并附有包括玩家被要求绘制的类别和玩家所在国家的元数据。
数据格式: 原始数据以ndjson格式提供，每个类别分开存储。

数据集内容

原始数据格式

数据字段:
- key_id: 64位无符号整数，唯一标识符
- word: 字符串，提示玩家绘制的类别
- recognized: 布尔值，表示类别是否被游戏识别
- timestamp: 日期时间，绘制时间
- countrycode: 字符串，玩家所在国家的两字母代码
- drawing: 字符串，表示向量绘制的JSON数组

预处理数据格式

简化绘图文件: 简化向量，移除时间信息，数据定位并缩放到256x256区域，以ndjson格式输出。
二进制文件: 简化绘图和元数据的定制二进制格式，用于高效压缩和加载。
Numpy位图: 所有简化绘图渲染为28x28灰度位图，以.npy格式存储。

数据获取

存储位置: 数据集存储在Google Cloud Storage，按类别分开的ndjson文件。
下载示例: 使用命令gsutil -m cp gs://quickdraw_dataset/full/simplified/*.ndjson .下载简化绘图。

数据集使用

项目示例: 包括艺术项目、数据分析、学术论文、指南和教程等。
模型训练: 数据集用于训练Sketch-RNN模型，TensorFlow实现可在Magenta Project找到。

许可证

许可证: Creative Commons Attribution 4.0 International license (CC BY 4.0)
许可证链接: https://creativecommons.org/licenses/by/4.0/

搜集汇总

数据集介绍

构建方式

Quick, Draw! Dataset的构建基于Google开发的在线游戏Quick, Draw!，该游戏邀请全球玩家在限定时间内绘制特定对象。数据集收集了超过5000万幅绘图，涵盖345个类别，每幅绘图以时间戳向量的形式记录，并附有包括玩家所在国家和绘制对象在内的元数据。这些绘图经过初步审核，确保内容的适宜性，并以ndjson格式存储，便于后续的数据处理和分析。

特点

Quick, Draw! Dataset的显著特点在于其庞大的规模和多样性，涵盖了从日常物品到抽象概念的广泛类别。每幅绘图不仅记录了绘制路径，还包含了时间信息，这为研究绘图动态提供了可能。此外，数据集的国际化特性体现在包含了来自不同国家和地区的玩家绘图，增加了数据的文化和地理多样性。

使用方法

Quick, Draw! Dataset适用于多种应用场景，包括但不限于机器学习模型的训练、艺术创作的数据源以及教育工具的开发。用户可以通过Google Cloud Storage下载原始或预处理的数据文件，支持ndjson、binary和numpy bitmap等多种格式。此外，TensorFlow提供了专门的教程和模型，帮助用户快速上手并实现自定义绘图分类器的训练。

背景与挑战

背景概述

Quick, Draw! Dataset 是由 Google Creative Lab 于2017年创建的一个大规模手绘数据集，包含超过5000万幅来自全球玩家的简笔画，涵盖345个类别。该数据集的核心研究问题是如何通过玩家在短时间内绘制的简笔画来训练机器识别和理解手绘图形。这一数据集不仅推动了计算机视觉和机器学习领域的发展，还为艺术与人工智能的交叉研究提供了丰富的资源。

当前挑战

Quick, Draw! Dataset 在构建过程中面临多个挑战。首先，数据的质量和多样性是一个重要问题，因为玩家的绘画技能和风格各异，可能导致数据噪声。其次，数据的预处理和标准化也是一个复杂的过程，需要将原始的矢量数据转换为适合机器学习模型输入的格式。此外，该数据集的应用领域广泛，从图像分类到生成对抗网络，每种应用都提出了不同的技术挑战。

常用场景

经典使用场景

在计算机视觉和机器学习领域，Quick, Draw! Dataset的经典使用场景之一是手绘图像的分类与识别。该数据集包含了来自全球玩家在短时间内绘制的5000万幅图画，涵盖345个类别。这些图画以时间戳向量的形式记录，为研究人员提供了一个丰富的数据源，用于训练和评估手绘图像识别模型。通过利用这些数据，研究者可以开发出能够自动识别和分类手绘图像的算法，从而推动计算机对手绘内容的理解与处理能力。

解决学术问题

Quick, Draw! Dataset在学术研究中解决了手绘图像识别的难题，特别是在非结构化数据处理和实时图像分类方面。该数据集通过提供大规模、多样化的手绘图像，帮助研究人员克服了传统图像数据集中样本不足和类别单一的问题。此外，数据集中的时间戳信息和地理标签为研究手绘行为的时空特征提供了可能，推动了跨学科研究的发展，如心理学和人类行为分析。

衍生相关工作

基于Quick, Draw! Dataset，许多经典工作得以衍生和发展。例如，Sketch-RNN模型利用该数据集训练了一个能够生成和理解手绘草图的循环神经网络，极大地推动了手绘内容生成技术的发展。此外，研究者还基于该数据集开发了多种手绘图像检索和识别算法，如Sketchmate和Multi-graph transformer，这些工作在手绘图像处理和理解领域取得了显著成果，并被广泛应用于学术研究和工业实践。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集