fsl-product-classification

Hugging Face2025-07-18 更新2025-07-19 收录

下载链接：

https://huggingface.co/datasets/xixu-me/fsl-product-classification

下载链接

链接失效反馈

官方服务：

资源简介：

FSL产品分类数据集是一个专为产品分类任务的少样本学习（FSL）研究而设计的。它包含763个不同类别的产品图片，总共有279,747张图片，平均每类大约367张图片，这使得它非常适合在电子商务和零售场景中训练和评估少样本学习算法。注意，类别编号不是连续的。数据集采用高效的tzst压缩格式，以减少存储空间并加快传输速度。

创建时间：

2025-07-17

原始信息汇总

FSL Product Classification Dataset 概述

数据集基本信息

许可证: MIT
任务类别: 图像分类
任务ID: 多类图像分类
标签: 计算机视觉、产品分类、电子商务、零售、少样本学习、元学习、基准测试
数据规模: 100K<n<1M
语言: 英文
正式名称: FSL Product Classification Dataset

数据集描述

用途: 专为产品分类任务中的少样本学习(FSL)研究设计
类别数量: 763个不同产品类别
图像总数: 279,747张
每类平均图像数: 约367张
类别编号: 非连续(部分类别编号可能缺失)

关键特征

覆盖763个不同产品类别
包含279,747张高质量产品图像
类别分布不均衡
采用tzst压缩格式以减少存储空间和加速传输

数据集统计

总类别数: 763
总图像数: 279,747
每类图像数: 平均约367张(分布不均)
图像格式: PNG
典型图像大小: 50-100 KB/张
压缩包大小: 约9.9 GB(data.tzst)

数据结构

压缩包结构: text data.tzst ├── class_0/ │ ├── class_0_0.png │ ├── class_0_1.png │ └── ... ├── class_1/ │ ├── class_1_0.png │ ├── class_1_1.png │ └── ... └── ... (共763个非连续编号的类别)

研究应用

少样本学习: 元学习算法、度量学习方法、基于梯度的元学习方法
迁移学习: 大规模产品数据预训练、领域自适应、产品分类微调策略
计算机视觉研究: 产品识别与检索、电子商务应用、零售自动化、视觉搜索系统

基准测试

标准少样本学习评估协议: 包括600个episode的评估，支持5-way 1-shot等配置
评估指标: 准确率、分类报告等

数据集特征

特征字段:
- image: 图像数据
- label: 类别标签(int64)
- class_name: 类别名称(string)
- image_id: 图像ID(string)

数据分割

训练集:
- 字节数: 9945644054
- 样本数: 279747
下载大小: 9945644054
数据集大小: 9945644054

搜集汇总

数据集介绍

构建方式

在电子商务与零售领域视觉识别需求日益增长的背景下，FSL Product Classification数据集通过系统化采集763类共279,747张商品图像构建而成。该数据集采用层级目录结构组织，每个商品类别独立建库，图像以PNG格式存储并经过tzst高效压缩处理，在保持视觉质量的同时显著降低存储需求。值得注意的是，数据集的类别编号采用非连续设计，这种特殊结构旨在模拟真实零售场景中商品类别的动态变化特性。

特点

作为专为小样本学习优化的基准数据集，其核心价值体现在763个商品类别的细粒度划分，平均每类包含367张高质量图像。数据呈现典型的非均匀分布特征，真实反映了电商平台商品上架的实际情况。图像数据涵盖多角度拍摄、不同光照条件下的商品外观，并保留原始分辨率信息，为计算机视觉模型提供了丰富的学习素材。数据集采用流式解压设计，支持内存高效处理大规模图像文件。

使用方法

研究者可通过Hugging Face数据集库直接加载该资源，配套提供的Python工具链包含完整的元学习训练流程实现。典型应用场景包括：使用ProtoNet等算法构建5-way k-shot分类任务，通过自定义DataLoader实现 episodic training模式，或基于预训练卷积网络提取视觉特征。数据集特别设计了非连续类别编号机制，要求使用者在模型开发阶段特别注意标签映射处理，这一特性使其成为评估模型泛化能力的理想测试平台。

背景与挑战

背景概述

FSL Product Classification数据集是面向小样本学习研究的专业数据集，由计算机视觉与电子商务领域的研究团队于近年构建。该数据集包含763个商品类别共计279,747张高质量图像，平均每个类别包含约367张样本，旨在解决电子商务场景下商品分类任务中的小样本学习难题。作为元学习和度量学习算法的基准测试平台，该数据集通过非连续类别编号的特殊设计，有效模拟了现实零售环境中新品上架的长尾分布问题，为计算机视觉在零售自动化、视觉搜索系统等应用场景的研究提供了重要数据支撑。

当前挑战

该数据集主要应对商品图像细粒度分类中的小样本学习挑战，具体包括：1) 解决同类商品因视角、光照导致的表观差异问题；2) 克服跨类商品因共享相似特征（如不同品牌的白色T恤）带来的分类歧义性。在构建过程中面临图像质量参差不齐的标准化处理难题，以及商品类目体系动态更新带来的标注一致性维护问题，特别是处理非连续类别编号时需确保数据划分的合理性。此外，数据分布的长尾特性要求算法在类别不平衡条件下保持鲁棒性。

常用场景

经典使用场景

在电子商务和零售领域，产品分类一直是一项具有挑战性的任务。FSL Product Classification数据集因其丰富的产品类别和高质量的图像数据，成为少样本学习研究的理想测试平台。该数据集最经典的使用场景是评估和比较不同少样本学习算法在商品分类任务上的性能，特别是在数据稀缺的情况下如何快速适应新类别。研究人员通常采用5-way 1-shot或5-way 5-shot等标准评估协议，验证模型从少量样本中学习新概念的能力。

解决学术问题

该数据集有效解决了计算机视觉领域的关键挑战：如何在有限标注数据下实现准确的产品分类。通过提供763个产品类别和近28万张图像，它为研究小样本条件下的知识迁移、元学习算法优化等核心问题提供了坚实基础。特别在解决现实场景中长尾分布问题上，该数据集非连续的类别编号设计模拟了实际电商平台中产品类别的动态变化特性，为研究增量学习和开放集识别等前沿课题创造了条件。

衍生相关工作

围绕该数据集已衍生出多项重要研究工作。在算法层面，研究者提出了改进的元学习框架如Meta-Baseline和Meta-Delta，专门针对电商产品特征优化。在应用层面，诞生了结合商品知识图谱的Few-shot Retail Recognition系统。该数据集还促进了跨模态研究，催生出结合文本描述的商品多模态小样本分类方法。部分工作进一步扩展了数据集边界，构建了包含价格、销量等附加属性的增强版本。

以上内容由遇见数据集搜集并总结生成