Quick, Draw! Dataset

github2023-07-07 更新2024-05-31 收录

下载链接：

https://github.com/akshaybahadur21/quickdraw-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Quick, Draw!数据集是一个包含5000万幅绘画的集合，涵盖345个类别，由玩家在游戏Quick, Draw!中贡献。这些绘画以时间戳向量形式捕获，并附带元数据，包括玩家被要求绘制的类别和玩家所在国家的信息。

The Quick, Draw! dataset is a collection of 50 million drawings spanning 345 categories, contributed by players in the game Quick, Draw!. These drawings are captured as timestamped vectors and come with metadata, including the category the player was asked to draw and the country of the player.

创建时间：

2018-09-23

原始信息汇总

数据集概述：The Quick, Draw! Dataset

数据集描述

The Quick, Draw! Dataset 是一个包含5000万张绘图的数据集，涵盖345个类别。这些绘图由参与游戏 Quick, Draw! 的玩家贡献。数据集中的绘图以时间戳向量形式捕捉，并附带元数据，包括玩家被要求绘制的类别和玩家所在的国家。

数据集内容

原始数据格式

数据类型：ndjson
结构：
- key_id：64位无符号整数，唯一标识符。
- word：字符串，玩家被提示绘制的类别。
- recognized：布尔值，是否被游戏识别。
- timestamp：日期时间，绘图创建时间。
- countrycode：字符串，玩家所在国家的两字母代码。
- drawing：字符串，表示向量绘图的JSON数组。

预处理数据格式

简化绘图文件：.ndjson，简化向量，移除时间信息，数据定位并缩放到256x256区域。
二进制文件：.bin，简化绘图和元数据的定制二进制格式。
Numpy位图文件：.npy，所有简化绘图渲染为28x28灰度位图。

数据获取

数据集可通过Google Cloud Storage获取，包括原始数据、简化绘图、二进制文件和Numpy位图文件。

数据集应用

数据集已被用于多种项目和实验，包括艺术创作、数据分析、学术论文、指南和教程等。

许可证

数据集根据Creative Commons Attribution 4.0 International license提供。

搜集汇总

数据集介绍

构建方式

Quick, Draw! 数据集通过在线游戏《Quick, Draw!》收集了来自全球玩家的5000万幅绘画作品，涵盖345个类别。每幅绘画以时间戳向量形式记录，并附有玩家被要求绘制的类别及其所在国家的元数据。数据经过初步审核，确保其可用性，但仍可能存在不适当内容。数据集以`ndjson`格式存储，每条记录包含唯一的绘图标识符、类别、识别状态、时间戳、国家代码以及表示绘图的JSON数组。

使用方法

用户可通过Google Cloud Storage获取数据集，支持多种格式下载，包括原始`ndjson`文件、简化后的矢量数据、二进制文件以及Numpy位图文件。数据集适用于开发、研究和艺术创作，用户可通过TensorFlow教程训练自定义绘图分类器，或使用Sketch-RNN模型进行生成式任务。数据集还提供了丰富的示例代码和工具，帮助用户快速上手并探索其潜力。

背景与挑战

背景概述

Quick, Draw! Dataset 是由 Google Creative Lab 于2017年发布的一个大规模手绘数据集，旨在通过游戏化的方式收集全球用户的手绘数据。该数据集包含了来自345个类别的5000万幅手绘图，每幅图均以时间戳向量形式记录，并附带了用户所在国家、绘制内容等元数据。该数据集的创建不仅为计算机视觉和机器学习领域提供了丰富的训练数据，还推动了手绘识别、生成模型等研究方向的发展。其广泛应用于图像分类、手绘生成、以及跨文化研究等领域，成为相关领域的重要基准数据集之一。

当前挑战

Quick, Draw! Dataset 面临的主要挑战包括数据质量与多样性的平衡。由于数据来源于全球用户的自由绘制，尽管经过人工审核，仍可能存在不适当或低质量的内容。此外，手绘数据的表现形式因设备、用户习惯和文化背景的差异而具有高度多样性，这对模型的泛化能力提出了更高要求。在构建过程中，如何高效处理海量数据并确保其格式一致性也是一大挑战。例如，原始数据中的时间戳和坐标信息需要经过复杂的预处理，如对齐、缩放和简化，才能适用于机器学习模型的训练。这些挑战不仅影响了数据集的可用性，也为相关领域的研究提供了新的探索方向。

常用场景

经典使用场景

Quick, Draw! 数据集作为全球范围内用户绘制的5000万幅手绘图的集合，广泛应用于机器学习和计算机视觉领域。其经典使用场景包括训练和评估手绘图识别模型，尤其是基于深度学习的模型。通过该数据集，研究人员能够探索手绘图的特征提取、分类和生成等任务，推动手绘图识别技术的发展。

解决学术问题

该数据集解决了手绘图识别领域中的多个关键学术问题。首先，它提供了大规模、多样化的手绘图数据，使得模型能够在不同类别和风格的手绘图中进行泛化。其次，数据集中的时间戳和地理位置信息为研究手绘图的时间序列特征和跨文化差异提供了可能。此外，数据集还支持生成模型的研究，如基于Sketch-RNN的自动绘图生成，推动了生成式模型在手绘图领域的应用。

实际应用

Quick, Draw! 数据集在实际应用中展现了广泛的价值。例如，在教育领域，该数据集可用于开发智能绘图教学工具，帮助学生通过手绘图学习复杂概念。在艺术创作中，艺术家可以利用生成模型从数据集中获取灵感，创作出新颖的艺术作品。此外，该数据集还被用于开发交互式应用，如实时手绘图识别和增强现实（AR）绘图工具，提升了用户体验。

数据集最近研究