Matthijs/snacks

Name: Matthijs/snacks
Creator: Matthijs
Published: 2022-04-12 14:26:59
License: 暂无描述

Hugging Face2022-04-12 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Matthijs/snacks

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含20种不同类型零食食品的数据集，伴随书籍《Machine Learning by Tutorials》发布。图像来源于Google Open Images数据集的2017_11版本。数据集分为训练集、验证集和测试集，图像被调整为最小边为256像素，并移除了所有EXIF信息。数据集遵循Creative Commons许可，图像和注释分别使用CC BY 2.0和CC BY 4.0许可。

This is a dataset comprising 20 distinct types of snack foods, released alongside the book *Machine Learning by Tutorials*. The images are sourced from the 2017_11 version of the Google Open Images Dataset. The dataset is split into training, validation, and test sets. All images have been resized so that their shorter side is 256 pixels, and all EXIF information has been removed. The dataset is released under Creative Commons licenses, with the images and annotations licensed under CC BY 2.0 and CC BY 4.0 respectively.

提供机构：

Matthijs

原始信息汇总

数据集概述

数据集名称

名称：Snacks

任务类别

图像分类
计算机视觉

许可证

许可证：CC BY 4.0

数据集摘要

包含20种不同类型的零食食品。
与书籍《Machine Learning by Tutorials》配套。
图像来源于Google Open Images数据集，2017_11版本。

数据集结构

训练/验证/测试集的图像数量：
- 训练集：4838张
- 验证集：955张
- 测试集：952张
- 总计：6745张
各分类的图像数量：
- apple: 350
- banana: 350
- cake: 349
- candy: 349
- carrot: 349
- cookie: 349
- doughnut: 350
- grape: 350
- hot dog: 350
- ice cream: 350
- juice: 350
- muffin: 348
- orange: 349
- pineapple: 340
- popcorn: 260
- pretzel: 204
- salad: 350
- strawberry: 348
- waffle: 350
- watermelon: 350

数据预处理

图像已调整大小，最小边为256像素。
所有EXIF信息已被移除。

数据分割

分割方式：训练集、测试集、验证集

许可证信息

图像和注释均根据Creative Commons许可证授权。
图像许可证：CC BY 2.0
注释许可证：CC BY 4.0
包含的credits.csv文件提供了每张图像的原始URL、作者信息和许可证。

搜集汇总

数据集介绍

构建方式

Matthijs/snacks数据集的构建，旨在为机器学习教程提供辅助资源。该数据集的图像选自Google Open Images数据集的2017_11版本，包含了20种不同类型的零食图片。构建过程中，对图像进行了压缩处理，以确保下载大小合理，同时移除了所有EXIF信息，保持了数据的一致性和简洁性。

特点

该数据集按照训练集、验证集和测试集进行了划分，分别包含4838、955和952张图片，总计6745张。每种零食类型均匀分布，数量介于204至350张之间，确保了模型的训练均衡。图像经过处理后，最小边长为256像素，便于模型输入的同时，节省了存储空间。此外，数据集遵循Creative Commons许可证，保证了使用的合法性和灵活性。

使用方法

在使用Matthijs/snacks数据集时，用户可根据训练、验证和测试的划分，直接加载相应的图片进行机器学习模型的训练和评估。数据集的credits.csv文件详细记录了每张图片的原始URL、作者信息和许可证，便于用户追溯和遵守版权规定。用户需确保在遵循CC BY 4.0许可证的前提下使用数据和标注。

背景与挑战

背景概述

Snacks数据集，伴随着《Machine Learning by Tutorials》一书的出版而诞生，旨在为机器学习领域中的图像分类任务提供专门的数据支持。该数据集于2017年11月采集自Google Open Images数据库，包含了20种不同的零食图像，总计6745张，每种零食的图像数量均衡，为机器学习模型的训练和验证提供了良好的数据基础。此数据集由Tutorials团队精心构建，为图像分类领域的研究提供了有力支撑，对推动相关技术的发展具有积极意义。

当前挑战

尽管Snacks数据集为图像分类研究提供了便利，但在实际应用中仍面临诸多挑战。首先，图像的多样性和复杂性要求模型具备较高的泛化能力。其次，数据集构建过程中，图像的选取、标注及处理均需耗费大量人力物力。此外，如何在保证数据质量的同时，有效压缩数据集以减少存储和计算负担，也是构建此类数据集的一大挑战。

常用场景

经典使用场景

在机器学习领域，尤其是图像分类任务中，Matthijs/snacks数据集因其包含了20种不同类型的小吃食品的图片而被广泛运用。该数据集常被用于教学目的，如辅助《Machine Learning by Tutorials》一书的读者理解和实践图像分类算法。

衍生相关工作

基于Matthijs/snacks数据集，研究者们已经开展了一系列相关工作，如改进的图像分类算法、跨类别特征提取方法等。这些工作不仅推动了图像识别技术的发展，也为机器学习领域贡献了新的理论和实践成果。

数据集最近研究