Quick, Draw! Dataset

github2018-10-03 更新2024-05-31 收录

下载链接：

https://github.com/tellingmachine/quickdraw-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Quick, Draw!数据集是一个包含5000万幅画作的集合，涵盖345个类别，由玩家在Quick, Draw!游戏中创作。这些画作以时间戳向量形式捕捉，附带元数据，包括玩家被要求绘制的类别和玩家所在国家的信息。

The Quick, Draw! dataset is a collection of 50 million drawings across 345 categories, created by players in the Quick, Draw! game. These drawings are captured in the form of timestamped vectors, accompanied by metadata including the category the player was asked to draw and the country of the player.

创建时间：

2018-10-03

原始信息汇总

The Quick, Draw! Dataset 概述

数据集描述

名称: The Quick, Draw! Dataset
规模: 包含5000万张图画
类别: 345个类别
来源: 由Quick, Draw!游戏玩家贡献
数据格式: 时间戳向量形式，包含玩家被要求绘制的类别和玩家所在国家的元数据

数据内容

原始数据: 以ndjson格式提供，按类别分隔
- 数据字段:
  - key_id: 64位无符号整数，唯一标识符
  - word: 字符串，提示玩家绘制的类别
  - recognized: 布尔值，是否被游戏识别
  - timestamp: 日期时间，绘制时间
  - countrycode: 字符串，玩家所在国家的两字母代码
  - drawing: 字符串，表示向量绘制的JSON数组
预处理数据:
- 简化绘图文件 (.ndjson): 简化向量，移除时间信息，数据定位并缩放到256x256区域
- 二进制文件 (.bin): 简化绘图和元数据的定制二进制格式
- Numpy位图 (.npy): 所有简化绘图渲染为28x28灰度位图
Sketch-RNN QuickDraw数据集:
- 数据格式: 压缩的.npz文件，适合循环神经网络输入
- 样本数量: 每个类别75K样本（70K训练，2.5K验证，2.5K测试）
- 处理: 使用Ramer-Douglas-Peucker算法简化线条

数据获取

存储位置: Google Cloud Storage
数据集链接:
- 原始文件: 链接
- 简化绘图文件: 链接
- 二进制文件: 链接
- Numpy位图文件: 链接
- Sketch-RNN数据: 链接

许可证

许可证: Creative Commons Attribution 4.0 International license

搜集汇总

数据集介绍

构建方式

Quick, Draw! Dataset 是由 Google 提供的一个包含 5000 万幅绘图的数据集，涵盖 345 个类别。这些绘图是由参与 Quick, Draw! 游戏的用户贡献的。数据集中的绘图以时间戳记的矢量形式捕获，并附有包括用户被要求绘制的对象和用户所在国家在内的元数据。构建该数据集的过程中，首先收集用户绘图，随后对每幅绘图进行时间戳记和元数据标注，最终形成一个包含关键标识符、绘制词汇、是否识别、时间戳、国家代码和绘图矢量的结构化数据集。

特点

该数据集的特点在于其规模庞大、类别丰富，且包含了用户地理位置信息，为研究用户行为和绘制习惯提供了丰富的素材。此外，数据集还提供了预处理后的简化绘图文件、二进制文件和 Numpy 位图文件，以便于不同格式的使用和不同算法的研究。数据集的开放性和可访问性也促进了艺术创作和数据分析等领域的广泛应用。

使用方法

用户可以通过 Google Cloud Storage 下载该数据集，数据集以不同的文件格式存储，包括原始的 ndjson 文件、简化的 ndjson 文件、二进制文件和 Numpy 位图文件。用户可以根据自己的需求选择合适的文件格式进行下载。此外，数据集还提供了用于训练 Sketch-RNN 模型的处理后的数据。使用该数据集时，用户应遵循 Creative Commons Attribution 4.0 国际许可协议。

背景与挑战

背景概述

Quick, Draw! Dataset是由Google提供的一个包含5000万幅绘图的数据集，跨越345个类别，由Quick, Draw!游戏的玩家贡献。这些绘图以时间戳记的矢量形式捕获，并附有元数据，包括玩家被要求绘制的内容以及玩家所在的国家。该数据集的创建旨在为开发者、研究人员和艺术家提供一个探索、研究和学习的资源。Quick, Draw! Dataset的发布时间为2016年，主要研究人员来自Google，其核心研究问题是通过众包方式收集大量手绘图像，用于机器学习和人工智能研究，对图像识别和分类领域产生了重要影响。

当前挑战

该数据集在构建过程中遇到的挑战主要包括：确保收集到的图像数据的多样性和质量，处理不同设备和输入方式导致的绘图差异，以及图像矢量化过程中的准确性。在研究领域问题方面，挑战包括如何有效地利用这些手绘图像进行特征提取、模型训练和图像分类，以及如何处理可能存在的数据不恰当内容。此外，数据集的规模和复杂性也对其存储、访问和处理提出了技术挑战。

常用场景

经典使用场景

Quick, Draw! Dataset作为一款收集了全球玩家绘制的手绘图像数据集，其经典的使用场景主要集中于图像识别、分类和生成模型的训练。通过对该数据集的学习，机器学习模型能够识别并分类不同的手绘对象，从而实现对快速绘制的图像进行准确识别。

实际应用

在实际应用中，Quick, Draw! Dataset被广泛应用于艺术创作、数据可视化以及交互式设计等领域。例如，艺术家可以利用数据集中的图像进行创作灵感的激发，数据分析师则可以通过数据集进行可视化分析，探索人类绘制习惯的模式和趋势。

衍生相关工作

基于该数据集，衍生出了一系列相关的研究工作，如Sketch-RNN模型等。这些工作不仅推动了手绘图像识别技术的发展，还在生成模型、数据可视化等方面取得了创新成果，为人工智能领域的研究和应用提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集