quickdraw-dataset

github2023-11-03 更新2024-05-31 收录

下载链接：

https://github.com/wty-yy/quickdraw-online

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含345个类别的图片，用于训练和测试图像识别模型，特别是用于实现一个在线网页版本的“你画我猜”实时识别功能。

This dataset comprises images across 345 distinct categories, and is developed for training and evaluating image recognition models, particularly to enable the real-time recognition functionality for an online web-based "You Draw, I Guess" game.

创建时间：

2023-11-02

原始信息汇总

你画我猜在线交互系统数据集概述

数据集信息

数据来源

完整数据集: 包含345个类别的enpy二进制编码数据集，可通过Google Cloud访问。
GitHub数据集介绍: quickdraw-dataset在GitHub上的介绍。
筛选后的数据集: 人工筛选出的最终数据集，包含210个类别，总共64341张图片，可通过Google Drive下载。

数据筛选

筛选目标: 从347个类别中选出210个类别，每个类别筛选至少300张图片。
筛选细节: 部分标签难以通过简笔画绘制，因此进行了人工筛选。

数据集使用

数据集放置: 下载的筛选后数据集应放置在根目录下的dataset_selected文件夹中，图片位置应为/dataset_selected/label_name/id.png。

模型与训练

卷积神经网络模型

模型类型: 训练了两个卷积神经网络，分别为CNN和DeeperCNN。
模型结构: 参考VGG思路，使用多层3x3卷积和2x2最大池化层，最终输出层为210维向量。
图像增强: 随机水平翻转、随机旋转、随机平移、随机亮度变换。
激活函数: 除输出层为softmax外，其他均为relu。
损失函数: 交叉熵损失。
优化器: Adam，步长为$10^{-4}$。
Batch大小: CNN为32，DeeperCNN为48。

训练结果

CNN:
- epoch=29: train/val准确率top1: 83.57%/85.38%, top5: 97.75%/97.74%, loss=0.5505/0.5423
- epoch=60: train/val准确率top1: 90%/86.98%, top5: 99.44%/98.25%, loss=0.2996/0.5395
DeeperCNN:
- epoch=40: 训练集/测试集 top1=90.44%/89%, top5=99.36%/98.78%, loss=0.2918

交互网页设计

网页功能

画版设计: 通过canvas实现网页上的在线画版。
实时交互: 使用socket库实现网页与Python的实时交互，不刷新网页。
多用户管理: 实现Manager类管理每个User类，确保多用户同时使用不冲突。

技术难点

图片处理: canvas生成的是四通道图片，通过提取第四通道并做log(x+1)变换得到灰度图片。
图像缩放: 使用类似Guass金字塔的思路对图像进行分次下采样，避免直接使用双线性插值导致的失真。

搜集汇总

数据集介绍

构建方式

quickdraw-dataset的构建基于Google的在线游戏“你画我猜”，通过收集全球用户绘制的简笔画图像，形成了包含345个类别的庞大数据集。数据集以numpy二进制格式存储，每个类别包含大量28x28像素的灰度图像。为了提升数据质量，研究团队进一步对原始数据进行了人工筛选，最终保留了210个类别，共计64341张图像，确保每个类别至少有300张图像。筛选过程中，团队剔除了难以通过简笔画表达的类别，并通过图像增强技术（如随机翻转、旋转、平移和亮度调整）丰富了数据的多样性。

特点

quickdraw-dataset以其多样性和规模著称，涵盖了从日常物品到抽象概念的广泛类别。每个图像均为28x28像素的灰度图，适合用于深度学习模型的训练。数据集经过人工筛选和图像增强处理，确保了数据的质量和多样性。此外，数据集还提供了从英文到中文的标签映射，便于中文用户使用。其独特的构建方式使其成为研究简笔画识别和生成模型的理想选择。

使用方法

使用quickdraw-dataset时，用户需先下载筛选后的数据集和预训练的模型权重文件。数据集需放置在指定目录下，模型权重文件则需放置在模型文件夹中。通过运行Python脚本，用户可在局域网内启动一个实时图像识别系统。该系统支持多用户同时绘制图像并获取预测结果。用户可通过网页界面进行绘画，系统会实时返回预测的类别及其置信度。此外，数据集还可用于训练自定义的卷积神经网络模型，支持图像分类任务的研究与开发。

背景与挑战

背景概述

QuickDraw数据集由Google Creative Lab于2017年推出，旨在通过用户绘制的简笔画来探索机器学习和计算机视觉的潜力。该数据集包含了数百万用户绘制的简笔画，涵盖了345个类别，每幅画作均以28x28像素的灰度图像形式存储。QuickDraw不仅为图像识别和分类任务提供了丰富的训练数据，还推动了交互式机器学习应用的发展。其核心研究问题在于如何通过简笔画实现高效的图像识别，并为用户提供实时反馈。该数据集在推动深度学习模型在简笔画识别领域的应用方面具有重要影响力，尤其是在教育、娱乐和创意设计等领域。

当前挑战

QuickDraw数据集在应用过程中面临多重挑战。首先，简笔画的多样性和用户绘制的随意性导致数据质量参差不齐，模型需要具备强大的泛化能力以应对不同风格的绘画。其次，数据集中存在大量噪声和不精确的样本，这对模型的训练和评估提出了更高的要求。在构建过程中，研究人员还需解决图像预处理、数据增强和模型优化等技术难题。此外，实时交互系统的开发要求模型具备高效的计算能力，以确保在用户绘制过程中能够快速返回预测结果。这些挑战不仅考验了模型的性能，也对数据处理和系统设计提出了更高的标准。

常用场景

经典使用场景

quickdraw数据集广泛应用于机器学习和计算机视觉领域，特别是在手绘图像识别和分类任务中。该数据集包含了大量用户绘制的简笔画，涵盖了345个不同的类别，为研究者提供了一个丰富的资源来训练和测试图像识别模型。通过使用这些数据，研究人员能够开发出能够准确识别和分类手绘图像的算法，从而推动图像识别技术的发展。

衍生相关工作

quickdraw数据集衍生了许多相关的研究工作，特别是在深度学习和卷积神经网络领域。许多研究基于该数据集开发了新的图像识别算法和模型，如改进的卷积神经网络架构和图像增强技术。这些工作不仅推动了图像识别技术的发展，还为其他领域的研究提供了宝贵的参考和借鉴。

数据集最近研究