five

Quick, Draw! Dataset|图像识别数据集|机器学习数据集

收藏
github2020-11-15 更新2024-05-31 收录
图像识别
机器学习
下载链接:
https://github.com/Fupete/quickdraw-dataset
下载链接
链接失效反馈
资源简介:
Quick, Draw!数据集是一个包含5000万幅绘画的数据集合,涵盖345个类别,由游戏Quick, Draw!的玩家贡献。这些绘画以时间戳向量的形式捕获,并附有包括玩家被要求绘画的内容和玩家所在国家的元数据。

The Quick, Draw! dataset is a collection of 50 million drawings across 345 categories, contributed by players of the game Quick, Draw!. These drawings are captured as timestamped vectors and come with metadata including what the players were asked to draw and the countries of the players.
创建时间:
2020-04-15
原始信息汇总

数据集概述:The Quick, Draw! Dataset

数据集描述

  • 名称: The Quick, Draw! Dataset
  • 别名: Quick Draw Dataset, quickdraw-dataset
  • 描述: 该数据集包含5000万幅来自345个类别的绘画,由Quick, Draw!游戏的玩家贡献。这些绘画以时间戳向量的形式捕捉,并附有元数据,包括玩家被要求绘制的内容以及玩家所在的国家。
  • 数据格式: 原始数据以ndjson文件格式提供,每个类别单独分隔。

数据内容

  • 元数据: 包括唯一标识符(key_id)、类别(word)、是否被游戏识别(recognized)、创建时间(timestamp)、国家代码(countrycode)和绘画向量(drawing)。
  • 绘画格式: 绘画以向量形式存储,每个向量包含多个笔画,每个笔画由一系列坐标(x, y)和时间戳(t)组成。

预处理数据

  • 简化绘画文件: 将向量简化,去除时间信息,并将数据定位和缩放到256x256区域,以.ndjson格式输出。
  • 二进制文件: 简化绘画和元数据的定制二进制格式,用于高效压缩和加载。
  • Numpy位图文件: 所有简化绘画已渲染为28x28灰度位图,以.npy格式存储。

数据获取

  • 存储位置: 数据集存储在Google Cloud Storage上,按类别分隔的ndjson文件。
  • 下载示例: 使用命令gsutil -m cp gs://quickdraw_dataset/full/simplified/*.ndjson .下载所有简化绘画。

许可证

数据集元数据

  • 提供者: Google
  • 许可证: CC BY 4.0
AI搜集汇总
数据集介绍
main_image_url
构建方式
Quick, Draw! 数据集通过全球用户参与的在线游戏收集了超过5000万幅手绘草图,涵盖345个类别。每幅绘图以时间戳向量形式记录,并附有元数据,包括用户被要求绘制的对象及其所在国家。数据经过初步审核,确保内容质量,并以NDJSON格式存储,便于后续处理与分析。
特点
该数据集的特点在于其丰富的多样性和广泛的覆盖范围。每幅绘图不仅包含详细的矢量信息,还记录了绘制时间、用户地理位置等元数据。数据集经过预处理,提供了简化后的矢量图、二进制文件以及28x28像素的灰度位图,极大地方便了机器学习模型的训练与应用。此外,数据集还支持多种格式,满足不同研究需求。
使用方法
Quick, Draw! 数据集可通过Google Cloud Storage下载,支持NDJSON、二进制和Numpy位图等多种格式。研究人员可使用提供的示例代码快速加载数据,并利用TensorFlow等工具进行模型训练。数据集特别适用于手绘识别、生成模型以及跨文化研究等领域。通过结合元数据,用户还可以深入分析不同地区的绘图习惯与文化差异。
背景与挑战
背景概述
Quick, Draw! 数据集由Google Creative Lab于2017年发布,旨在通过全球用户的参与,收集大规模的简笔画数据。该数据集包含来自345个类别的5000万幅简笔画,每幅画作均以时间戳向量形式记录,并附有用户被要求绘制的对象及其所在国家的元数据。该数据集的核心研究问题在于如何通过大规模的用户生成数据,推动计算机视觉和机器学习领域的发展,特别是在手绘识别和生成模型方面的应用。Quick, Draw! 数据集不仅为研究者提供了丰富的训练数据,还通过其开放性和多样性,促进了艺术创作、数据分析和深度学习模型的创新。
当前挑战
Quick, Draw! 数据集在解决手绘识别和生成问题时面临多重挑战。首先,由于数据来自全球用户,绘制的风格和质量差异显著,导致模型在识别和分类时需要具备较强的鲁棒性。其次,尽管数据集经过人工审核,但仍可能包含不适当的内容,这对数据清洗和预处理提出了更高要求。此外,数据集的构建过程中,如何高效处理海量的时间序列向量数据,并将其转化为适合机器学习模型输入的格式,也是一个技术难点。最后,如何利用这些数据开发出能够生成逼真且多样化简笔画的模型,仍然是当前研究中的一个重要挑战。
常用场景
经典使用场景
Quick, Draw! Dataset 作为全球最大的手绘数据集之一,广泛应用于机器学习和计算机视觉领域。该数据集最经典的使用场景之一是训练和评估手绘图像分类模型。通过其丰富的类别和多样化的手绘样本,研究人员能够构建高效的分类器,识别用户绘制的简单图形。此外,该数据集还被用于生成式模型的训练,如基于循环神经网络(RNN)的Sketch-RNN模型,用于生成新的手绘图形。
衍生相关工作
Quick, Draw! Dataset 衍生了许多经典的研究工作。例如,Sketch-RNN 模型利用该数据集实现了手绘图形的生成与补全,成为生成式模型领域的代表性工作。此外,基于该数据集的深度哈希方法(如SketchMate)在手绘图像检索任务中取得了显著进展。近年来,多图变换器(Multi-graph Transformer)和自监督学习方法也被应用于该数据集,进一步提升了手绘识别的性能。这些工作不仅推动了手绘图像处理技术的发展,也为其他领域的时序数据处理提供了借鉴。
数据集最近研究
最新研究方向
近年来,Quick, Draw! 数据集在计算机视觉和机器学习领域引起了广泛关注,尤其是在手绘草图识别和生成模型的研究中。该数据集包含了来自全球用户的5000万幅手绘草图,涵盖了345个类别,为研究者提供了丰富的素材。当前的研究热点主要集中在利用深度学习技术进行草图分类、生成和检索。例如,基于Sketch-RNN模型的草图生成研究,通过递归神经网络实现了从简单笔画到复杂草图的生成过程。此外,研究者们还在探索如何利用自监督学习方法提升草图的特征表示能力,以应对草图数据中的多样性和复杂性。这些研究不仅推动了草图识别技术的发展,还为艺术创作、人机交互等领域提供了新的可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题