OmAlve/quickdraw-26-classes

Name: OmAlve/quickdraw-26-classes
Creator: OmAlve
Published: 2024-04-27 05:49:29
License: 暂无描述

Hugging Face2024-04-27 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/OmAlve/quickdraw-26-classes

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: image dtype: PIL.Image.Image - name: label dtype: int class_label: names: '0': bowtie '1': windmill '2': tree '3': river '4': ice cream '5': eye '6': book '7': sun '8': star '9': airplane '10': butterfly '11': clock '12': car '13': fish '14': face '15': umbrella '16': cat '17': bicycle '18': pizza '19': house '20': cake '21': bucket '22': crown '23': light bulb '24': cell phone '25': t-shirt splits: - name: train num_bytes: 174683075.2 num_examples: 416000 - name: val num_bytes: 21851140.4 num_examples: 52000 - name: test num_bytes: 21675900.4 num_examples: 52000 download_size: 218844448 dataset_size: 218210116 configs: - config_name: default data_files: - split: train path: data/train-* - split: val path: data/val-* - split: test path: data/test-* task_categories: - image-classification tags: - art size_categories: - 100K<n<1M --- # Quick! Draw 26 Class Dataset This dataset is derived from the Google Quick! Draw dataset and contains 26 classes of doodle images drawn by users. The classes include common objects and entities like animals, vehicles, food items, and everyday objects. ## Dataset Details - **Number of Classes:** 26 - **Total Images:** 520,000 (416,000 train, 52,000 val, 52,000 test) - **Image Format:** PNG images of size 28x28 pixels (grayscale) - **Data Fields:** - `image`: PIL Image object - `label`: Integer label corresponding to class ## Class Labels 0: bowtie, 1: windmill, 2: tree, 3: river, 4: ice cream, 5: eye, 6: book, 7: sun, 8: star, 9: airplane, 10: butterfly, 11: clock, 12: car, 13: fish, 14: face, 15: umbrella, 16: cat, 17: bicycle, 18: pizza, 19: house, 20: cake, 21: bucket, 22: crown, 23: light bulb, 24: cell phone, 25: t-shirt ## Download and Loading You can load this dataset using the `load_dataset` function from the `datasets` library: ```python from datasets import load_dataset dataset = load_dataset("OmAlve/quickdraw_26_classes") ``` This will download and cache the dataset locally. ## Maintainers - [Om Alve](https://huggingface.co/OmAlve)

--- dataset_info: 数据集信息: 特征: - 名称：image 数据类型：PIL.Image.Image - 名称：label 数据类型：int（整数）类别标签映射: '0': 领结（bowtie） '1': 风车（windmill） '2': 树木（tree） '3': 河流（river） '4': 冰淇淋（ice cream） '5': 眼睛（eye） '6': 书籍（book） '7': 太阳（sun） '8': 星星（star） '9': 飞机（airplane） '10': 蝴蝶（butterfly） '11': 时钟（clock） '12': 汽车（car） '13': 鱼类（fish） '14': 人脸（face） '15': 雨伞（umbrella） '16': 猫咪（cat） '17': 自行车（bicycle） '18': 披萨（pizza） '19': 房屋（house） '20': 蛋糕（cake） '21': 水桶（bucket） '22': 皇冠（crown） '23': 灯泡（light bulb） '24': 手机（cell phone） '25': T恤（t-shirt）数据划分: - 名称：训练集（train）字节大小：174683075.2 样本数量：416000 - 名称：验证集（val）字节大小：21851140.4 样本数量：52000 - 名称：测试集（test）字节大小：21675900.4 样本数量：52000 下载总大小：218844448 数据集总大小：218210116 配置项: - 配置名称：default 数据文件: - 划分集：train 路径：data/train-* - 划分集：val 路径：data/val-* - 划分集：test 路径：data/test-* 任务类别: - 图像分类（image-classification）标签: - 艺术（art）样本规模分类: - 100K<n<1M --- # Quick! Draw 26类数据集本数据集源自谷歌Quick, Draw数据集，包含用户绘制的26类简笔画图像。类别涵盖动物、交通工具、食品及日常用品等常见物体与实体。 ## 数据集详情 - **类别数量**：26类 - **总图像量**：520,000张（训练集416,000张、验证集52,000张、测试集52,000张） - **图像格式**：28×28像素的PNG灰度图像 - **数据字段**： - `image`：PIL图像对象 - `label`：对应类别的整数标签 ## 类别标签 0: 领结（bowtie），1: 风车（windmill），2: 树木（tree），3: 河流（river），4: 冰淇淋（ice cream），5: 眼睛（eye），6: 书籍（book），7: 太阳（sun），8: 星星（star），9: 飞机（airplane），10: 蝴蝶（butterfly），11: 时钟（clock），12: 汽车（car），13: 鱼类（fish），14: 人脸（face），15: 雨伞（umbrella），16: 猫咪（cat），17: 自行车（bicycle），18: 披萨（pizza），19: 房屋（house），20: 蛋糕（cake），21: 水桶（bucket），22: 皇冠（crown），23: 灯泡（light bulb），24: 手机（cell phone），25: T恤（t-shirt） ## 下载与加载您可通过`datasets`库的`load_dataset`函数加载该数据集： python from datasets import load_dataset dataset = load_dataset("OmAlve/quickdraw_26_classes") 该操作会将数据集下载并缓存至本地。 ## 维护者 - [Om Alve](https://huggingface.co/OmAlve)

提供机构：

OmAlve

原始信息汇总

Quick! Draw 26 Class Dataset 概述

数据集基本信息

类别数目: 26
总图像数: 520,000 (416,000 训练集, 52,000 验证集, 52,000 测试集)
图像格式: 28x28像素的PNG格式灰度图像
数据字段:
- image: PIL Image 对象
- label: 整数标签，对应类别

类别标签

0: bowtie
1: windmill
2: tree
3: river
4: ice cream
5: eye
6: book
7: sun
8: star
9: airplane
10: butterfly
11: clock
12: car
13: fish
14: face
15: umbrella
16: cat
17: bicycle
18: pizza
19: house
20: cake
21: bucket
22: crown
23: light bulb
24: cell phone
25: t-shirt

数据集划分

训练集: 416,000 图像, 174,683,075.2 字节
验证集: 52,000 图像, 21,851,140.4 字节
测试集: 52,000 图像, 21,675,900.4 字节

数据集大小

下载大小: 218,844,448 字节
数据集大小: 218,210,116 字节

加载数据集

使用 datasets 库的 load_dataset 函数加载数据集: python from datasets import load_dataset

dataset = load_dataset("OmAlve/quickdraw_26_classes")

搜集汇总

数据集介绍

构建方式

在计算机视觉与手绘识别领域，数据集的质量直接影响模型性能。本数据集源于谷歌Quick! Draw项目，通过在线游戏平台收集全球用户的手绘涂鸦，涵盖26类常见物体与实体。原始数据经过筛选与标准化处理，统一转换为28×28像素的灰度PNG图像，并划分为训练集、验证集与测试集，确保数据分布的均衡性与代表性。

特点

该数据集以手绘涂鸦为核心，图像均为单通道灰度格式，尺寸统一为28×28像素，便于模型处理。涵盖类别丰富，包括动物、交通工具、日常物品等26类，每类样本数量充足，总计52万张图像。数据划分明确，训练集、验证集与测试集比例合理，支持图像分类任务的模型训练与评估，具有较高的实用性与泛化潜力。

使用方法

利用Hugging Face的datasets库，用户可便捷加载本数据集。通过调用load_dataset函数并指定数据集名称，系统将自动下载并缓存数据至本地。加载后的数据集包含image与label字段，分别对应图像对象与整数标签，可直接用于图像分类模型的训练、验证与测试流程，简化了数据预处理步骤。

背景与挑战

背景概述

在计算机视觉与模式识别领域，手绘草图识别作为一项基础而富有挑战性的任务，长期受到学术界与工业界的关注。OmAlve/quickdraw-26-classes数据集源于谷歌于2016年发起的‘Quick, Draw!’项目，该项目由谷歌创意实验室主导，旨在通过众包方式收集全球用户绘制的简笔画数据。该数据集的核心研究问题聚焦于探索如何利用深度学习模型理解并分类人类手绘的抽象视觉概念，其构建为草图识别、快速图像检索及人机交互等研究方向提供了大规模、多样化的基准数据，显著推动了轻量级视觉模型与数据高效学习算法的发展。

当前挑战

该数据集旨在解决手绘草图自动分类这一领域问题，其核心挑战在于草图本身的高度抽象性与个体绘画风格的巨大差异性，这导致类内方差大而类间方差小，模型难以捕捉稳定特征。在构建过程中，挑战主要源于数据清洗与标注的复杂性：原始众包数据包含大量不完整、噪声或与标签不符的涂鸦，需设计高效算法过滤低质量样本；同时，确保26个类别在视觉上的区分度与平衡性，避免因常见物体（如‘猫’）样本过多而冷门物体（如‘皇冠’）样本过少导致的模型偏差，亦是构建均衡数据集的难点。

常用场景

经典使用场景

在计算机视觉与模式识别领域，手绘草图识别作为一项基础任务，长期受到学术界关注。OmAlve/quickdraw-26-classes数据集以其大规模、多样化的用户绘制草图，为图像分类模型的训练与评估提供了经典场景。该数据集包含26类常见物体，如动物、交通工具和日常用品，每幅图像均为28x28像素的灰度图，模拟了真实世界中的简笔画风格。研究者常利用该数据集验证卷积神经网络等模型在有限分辨率下的特征提取能力，探索模型对抽象视觉概念的泛化性能。

解决学术问题

该数据集有效解决了手绘草图识别中的若干核心学术问题。其一，它提供了大规模、标注统一的草图数据，缓解了该领域长期存在的数据稀缺困境。其二，草图的高度抽象性与个体绘制差异，为研究模型对视觉概念的鲁棒性理解提供了天然测试平台。其三，数据集的简洁格式与明确分类，助力于探索轻量级模型在资源受限环境下的部署可行性。这些贡献推动了草图识别从理论方法到实际算法的跨越，为后续研究奠定了数据基础。

衍生相关工作

围绕该数据集衍生的经典工作丰富多样。在模型架构方面，研究者提出了多种轻量级卷积网络，专门针对草图的小尺寸与高噪声特性进行优化。在跨域学习领域，该数据集常与真实图像数据集结合，用于研究从抽象到具象的特征迁移问题。此外，一系列工作探索了草图生成的对抗网络方法，利用数据集的分布特性合成新颖草图。这些研究不仅深化了对视觉表示的理解，也推动了边缘计算与创意生成等交叉方向的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集