five

Quick, Draw! Dataset

收藏
github2020-08-08 更新2024-05-31 收录
下载链接:
https://github.com/The-God-coder/quickdraw-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
Quick, Draw!数据集是一个包含5000万幅来自游戏Quick, Draw!玩家的绘画集合,涵盖345个类别。这些绘画以时间戳向量的形式捕获,并附带元数据,包括玩家被要求绘制的类别和玩家所在国家的信息。

The Quick, Draw! dataset is a collection of 50 million drawings from players of the game Quick, Draw!, covering 345 categories. These drawings are captured as timestamped vectors and come with metadata, including the category the player was asked to draw and the country of the player.
创建时间:
2020-03-19
原始信息汇总

数据集概述:The Quick, Draw! Dataset

数据集描述

  • 名称: The Quick, Draw! Dataset
  • 别名: Quick Draw Dataset
  • 描述: 该数据集包含5000万幅来自345个类别的绘画,由玩家在游戏“Quick, Draw!”中贡献。这些绘画以时间戳向量的形式捕获,并附有元数据,包括玩家被要求绘制的内容以及玩家所在的国家。

数据集内容

  • 数据格式: 原始数据以ndjson格式提供,每个类别单独文件。
  • 数据结构:
    • key_id: 64位无符号整数,唯一标识符。
    • word: 字符串,玩家被提示绘制的类别。
    • recognized: 布尔值,表示单词是否被游戏识别。
    • timestamp: 日期时间,绘画创建的时间。
    • countrycode: 字符串,玩家所在地的两字母国家代码。
    • drawing: 字符串,表示向量绘画的JSON数组。

预处理数据集

  • 简化绘画文件: 简化向量,移除时间信息,并将数据定位和缩放到256x256区域,以ndjson格式输出。
  • 二进制文件: 简化绘画和元数据的定制二进制格式,用于高效压缩和加载。
  • Numpy位图文件: 所有简化绘画已渲染为28x28灰度位图,以numpy .npy格式存储。

数据获取

  • 存储位置: 数据集存储在Google Cloud Storage上,按类别分隔的ndjson文件。
  • 下载示例: 使用命令gsutil -m cp gs://quickdraw_dataset/full/simplified/*.ndjson .下载所有简化绘画。

数据集用途

  • Sketch-RNN QuickDraw Dataset: 此数据用于训练Sketch-RNN模型,数据存储在压缩的.npz文件中,适合输入到循环神经网络。

许可证

  • 类型: Creative Commons Attribution 4.0 International license
  • 链接: CC BY 4.0
搜集汇总
数据集介绍
main_image_url
构建方式
Quick, Draw! 数据集是通过在线游戏平台收集的,玩家被要求根据提示绘制特定类别的图像。这些绘图以时间戳向量的形式被捕获,并附带了丰富的元数据,包括绘制的类别、玩家的地理位置等。数据集经过人工审核,确保内容的质量和适宜性。数据以NDJSON格式存储,每个文件对应一个类别,包含唯一的绘图标识符、类别名称、识别状态、时间戳、国家代码以及绘图向量。
使用方法
数据集可通过Google Cloud Storage下载,支持多种格式,包括NDJSON、二进制文件和Numpy位图。用户可以使用命令行工具或编程语言(如Python、NodeJS)加载和处理数据。数据集适用于多种任务,如手绘图像分类、生成模型训练、时间序列分析等。Google还提供了基于TensorFlow的教程,帮助用户训练自定义的绘图分类模型。此外,数据集已被广泛应用于艺术创作、数据分析和机器学习研究,用户可以参考相关项目和论文进行进一步探索。
背景与挑战
背景概述
Quick, Draw! 数据集是由Google Creative Lab于2017年发布的一个大规模手绘数据集,旨在推动手绘识别与生成领域的研究。该数据集包含了来自全球玩家的5000万幅手绘图,涵盖345个类别,每幅图均以时间戳向量形式存储,并附带了玩家所在国家、绘制内容等元数据。该数据集的发布为手绘识别、生成模型以及跨文化研究提供了丰富的资源,尤其在深度学习领域,推动了如Sketch-RNN等模型的开发与应用。其广泛的应用场景包括艺术创作、数据分析和机器学习模型的训练,显著提升了手绘相关研究的深度与广度。
当前挑战
Quick, Draw! 数据集在解决手绘识别与生成问题时面临多重挑战。首先,手绘图的质量和风格因玩家而异,导致数据的高度多样性,增加了模型训练的复杂性。其次,尽管数据集经过人工审核,仍可能包含不适当内容,这对数据清洗和预处理提出了更高要求。此外,手绘图的向量化表示涉及复杂的时空信息处理,如何有效提取和利用这些信息是技术上的难点。在数据构建过程中,如何平衡数据的多样性与一致性,以及如何高效处理大规模数据,也是数据集构建者面临的主要挑战。
常用场景
经典使用场景
Quick, Draw! 数据集在机器学习和计算机视觉领域中被广泛用于训练和评估手绘图像识别模型。由于其包含大量用户生成的手绘数据,研究人员可以利用这些数据来开发能够理解和分类手绘图像的算法。特别是在深度学习领域,该数据集常被用于训练卷积神经网络(CNN)和递归神经网络(RNN),以提升模型在图像分类和生成任务中的表现。
解决学术问题
Quick, Draw! 数据集解决了手绘图像识别中的多个关键学术问题。首先,它提供了丰富的多样性数据,涵盖了345个类别,能够帮助研究人员更好地理解不同文化背景下的手绘风格差异。其次,数据集中的时间戳信息使得研究者能够分析手绘过程中的时间动态,从而改进基于时间序列的模型。此外,该数据集还为手绘图像的生成和风格迁移研究提供了宝贵的数据支持。
实际应用
在实际应用中,Quick, Draw! 数据集被广泛用于开发智能绘图工具和手写识别系统。例如,基于该数据集训练的模型可以用于实时识别用户的手绘输入,广泛应用于教育、艺术创作和设计领域。此外,该数据集还被用于开发交互式应用程序,如智能绘图助手和手绘游戏,提升了用户体验和互动性。
数据集最近研究
最新研究方向
近年来,Quick, Draw! 数据集在计算机视觉和机器学习领域引起了广泛关注,尤其是在手绘草图识别与生成方向。该数据集包含了来自全球用户的5000万幅手绘草图,覆盖345个类别,为研究者提供了丰富的素材。当前的研究热点主要集中在基于深度学习的草图生成与分类模型,如Sketch-RNN等。这些模型不仅能够生成逼真的手绘草图,还能通过自监督学习提升草图的识别精度。此外,该数据集还被广泛应用于跨文化研究,分析不同地区用户的绘画习惯与风格差异。随着生成式AI技术的快速发展,Quick, Draw! 数据集在艺术创作、教育工具开发以及人机交互设计等领域展现出巨大的潜力,成为推动相关技术创新的重要资源。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作