Product Classification using Self Designed DataSet

github2023-11-23 更新2024-05-31 收录

下载链接：

https://github.com/aditya-AI/Product-Classification-using-Self-Designed-DataSet

下载链接

链接失效反馈

官方服务：

资源简介：

本项目旨在从零开始创建自己的数据集并构建一个强大的分类器。数据集包含四个类别：可口可乐罐、ThumbsUp罐、Mirinda瓶和Tide包装袋。数据收集通过两种方式进行：使用iPhone 6S plus拍摄照片和使用笔记本电脑录制视频。收集数据时的一个重要方面是确保所有产品具有相似的背景，以便网络学习图像中产品的有意义和区分性特征，而不是背景。此外，确保验证数据的分布与测试数据相似，以提高网络性能。

This project aims to create a dataset from scratch and build a robust classifier. The dataset comprises four categories: Coca-Cola cans, ThumbsUp cans, Mirinda bottles, and Tide packaging bags. Data collection was conducted in two ways: capturing photos using an iPhone 6S Plus and recording videos with a laptop. A crucial aspect of data collection was ensuring that all products had similar backgrounds, enabling the network to learn meaningful and distinctive features of the products in the images rather than the background. Additionally, it was essential to ensure that the distribution of validation data resembled that of the test data to enhance network performance.

创建时间：

2019-01-03

原始信息汇总

数据集概述

数据集名称

Product Classification using Self Designed DataSet

数据集内容

包含四个类别：Coke Can, ThumbsUp Can, Mirinda Bottle, Tide Packet。
数据收集方式：
- 使用iPhone 6S plus拍摄图片。
- 使用笔记本电脑录制视频。

数据集特点

训练数据中的产品背景保持一致，以确保网络学习到产品的有意义和区分性的特征。
验证数据的分布与测试数据相似，以提高网络性能。

数据集使用

数据集用于训练一个分类器，模型在训练集上的准确率接近100%，在结果数据集上的准确率约为97%-98%。
结果数据存储在Results文件夹中。

数据集操作指南

使用Classification.ipynb或Classification.py进行训练和测试。
使用webcamera.py进行实时测试，通过笔记本电脑的网络摄像头。

搜集汇总

数据集介绍

构建方式

该数据集的构建过程体现了从零开始创建自定义数据集的科学方法。数据采集通过两种方式完成：一是使用iPhone 6S Plus拍摄图片，二是通过笔记本电脑录制视频。为确保模型能够专注于产品本身的特征而非背景，所有产品图片的背景均经过精心设计，保持一致性。此外，验证数据的分布与测试数据高度相似，这一策略显著提升了模型的性能，使其在真实场景中表现出色。

特点

该数据集的特点在于其高度的实用性和多样性。数据集包含四个类别：可乐罐、ThumbsUp罐、Mirinda瓶和Tide包装袋。训练数据中的背景经过统一设计，以确保模型能够学习到产品的关键特征。测试数据则涵盖了多样化的背景，模型在这些复杂场景中仍能保持高达97%-98%的准确率，展现了其强大的泛化能力。

使用方法

使用该数据集时，用户需首先通过虚拟环境安装依赖项，随后利用提供的脚本将视频转换为图像帧。训练和测试过程可通过Jupyter Notebook或命令行脚本完成。此外，用户还可以通过笔记本电脑的摄像头实时测试模型，脚本中采用了多线程技术以减少帧读取和预测的延迟。整个流程设计简洁，便于用户快速上手并进行产品分类实验。

背景与挑战

背景概述

Product Classification using Self Designed DataSet 是一个专注于从零开始创建自定义数据集并进行产品分类的项目。该数据集由四个类别组成，分别是可乐罐、ThumbsUp罐、Mirinda瓶和Tide洗衣粉包装。数据集的创建旨在通过自定义数据训练一个鲁棒的分类器，以解决产品图像分类问题。数据收集过程中，研究人员使用了iPhone 6S Plus拍摄照片以及笔记本电脑录制视频的方式，确保所有产品图像具有相似的背景，从而使模型能够学习到产品的显著特征而非背景信息。该数据集在训练集上达到了接近100%的准确率，验证集和测试集的分布也经过精心设计，以模拟真实场景中的分类任务。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，数据收集阶段需要确保所有产品图像具有相似的背景，以避免模型学习到无关的背景特征，这对数据采集的标准化提出了较高要求。其次，验证集和测试集的分布必须高度一致，以确保模型在真实场景中的泛化能力。此外，尽管模型在训练集上表现优异，但在面对多样化的背景时，如何进一步提升模型的鲁棒性和泛化能力仍是一个关键挑战。最后，从视频中提取图像帧并进行分类的过程中，如何高效处理大量数据并确保分类的实时性也是技术实现中的一大难题。

常用场景

经典使用场景

在计算机视觉领域，产品分类是一个基础且关键的任务。该数据集通过自建图像数据集，专注于对四种日常商品（如可乐罐、ThumbsUp罐、Mirinda瓶和Tide包装）进行分类。其经典使用场景包括训练深度学习模型以识别和分类这些商品，尤其是在零售自动化、库存管理和智能货架等场景中。通过确保训练数据与测试数据分布一致，模型在实际应用中的表现得到了显著提升。

衍生相关工作

该数据集衍生了一系列相关研究工作。例如，基于该数据集的研究推动了小样本学习在商品分类中的应用，尤其是在数据稀缺的情况下如何提升模型性能。此外，该数据集还被用于探索多模态学习，结合图像和视频数据提升分类精度。相关研究还进一步优化了模型架构和超参数选择方法，为其他领域的分类任务提供了借鉴。

数据集最近研究