Meesho Visual Taxonomy Data Challenge

github2024-11-18 更新2024-11-22 收录

下载链接：

https://github.com/NeelDevenShah/Meesho-Visual-Taxonomy-Data-Challenge

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于预测供应商上传图像的属性，作为电子商务平台目录的一部分。任务对于确保属性的准确性和完整性至关重要，特别是在印度电子商务环境中，错误的或不完整的信息是一个常见问题。

This dataset is developed to predict the attributes of images uploaded by vendors for inclusion in an e-commerce platform's product catalog. This task is critical for ensuring the accuracy and completeness of these attributes, especially in the Indian e-commerce ecosystem, where erroneous or incomplete product information is a pervasive issue.

创建时间：

2024-10-19

原始信息汇总

Meesho Visual Taxonomy Data Challenge - Team ML Maverick

数据集概述

该数据集用于Meesho视觉分类数据挑战，旨在从供应商上传的图像中预测产品属性，以确保电子商务平台上的产品目录信息准确完整。

问题陈述

任务是从供应商上传的图像中准确预测产品属性，以避免描述与图像不符的情况。

数据集概览

方法与方法论

模型选择

使用facebook/convnext-base-384-22k-1k作为基础特征提取器，预训练于ImageNet-22k，并在ImageNet-1k上进行微调。

架构

共享特征主干使用ConvNeXt。
属性特定的分类器头，针对每个属性进行定制。
集成空间和通道注意力机制。

训练策略

两阶段训练：
- 初始端到端训练全模型。
- 微调分类器头以适应个别属性。
使用组合的交叉熵和MMD损失进行初始训练，使用交叉熵损失进行微调。
对训练图像进行增强（如调整大小、翻转）以提高泛化能力。

效率

模型在部署时表现出内存效率，需要最小的计算资源。
在不同类别中，推理时间在9.4–10.4张图像每秒之间。

结果

总体结果

在私有排行榜上获得第23名，最终F1得分为76.93%，与第一名相差3.27%。

评估指标

验证数据集上的评估指标

类别	Micro-F1-score	Macro-F1-score	Harmonic mean of micro and macro f1 score
Men Tshirts	0.972	0.967	0.969
Sarees	0.754	0.534	0.6252
Kurtis	0.929	0.888	0.908
Women Tshirts	0.901	0.766	0.828
Women Tops & Tunics	0.913	0.854	0.882

详细指标

Men Tshirts (Category 1)

Attribute	Val Loss	Val Accuracy	Weighted F1-score	Micro F1-score	Macro F1-score	Harmonic Mean of F1
attr_1	0.2893	0.9100	0.9102	0.9100	0.9133	0.9116
attr_2	0.0152	0.9984	0.9984	0.9984	0.9984	0.9984
attr_3	0.0518	0.9897	0.9897	0.9897	0.9896	0.9896
attr_4	0.1097	0.9645	0.9645	0.9645	0.9431	0.9537
attr_5	0.0140	0.9983	0.9983	0.9983	0.9919	0.9951
average	0.0962	0.9721	0.9722	0.9721	0.9672	0.9696

Sarees (Category 2)

Attribute	Val Loss	Val Accuracy	Weighted F1-Score	Micro F1-Score	Macro F1-Score	Harmonic Mean of F1
attr_1	0.5766	0.7335	0.7399	0.7335	0.5821	0.6491
attr_2	0.7649	0.7002	0.6942	0.7002	0.6440	0.6709
attr_3	0.2415	0.9021	0.8894	0.9021	0.6299	0.7418
attr_4	0.9826	0.5839	0.5093	0.5839	0.4575	0.5131
attr_5	0.6890	0.7398	0.7202	0.7398	0.5924	0.6580
attr_6	0.3215	0.8940	0.8754	0.8940	0.5969	0.7158
attr_7	0.8439	0.6182	0.5556	0.6182	0.4530	0.5229
attr_8	0.4434	0.8315	0.7804	0.8315	0.3240	0.4663
attr_9	0.9015	0.7052	0.6804	0.7052	0.5938	0.6447
attr_10	0.3686	0.8343	0.7626	0.8343	0.4711	0.6021
average	0.6133	0.7542	0.7207	0.7542	0.5344	0.6184

Kurtis (Category 3)

Attribute	Val Loss	Val Accuracy	Weighted F1-Score	Micro F1-Score	Macro F1-Score	Harmonic Mean of F1
attr 1	0.4018	0.8712	0.8678	0.8712	0.7490	0.8055
attr 2	0.2888	0.9105	0.9101	0.9105	0.9021	0.9063
attr 3	0.4849	0.8471	0.8466	0.8471	0.8395	0.8432
attr 4	0.1976	0.9581	0.9544	0.9581	0.8179	0.8825
attr 5	0.1535	0.9537	0.9527	0.9537	0.9429	0.9483
attr 6	0.2128	0.9349	0.9350	0.9349	0.9349	0.9349
attr 7	0.2329	0.9323	0.9322	0.9323	0.9318	0.9321
attr 8	0.1457	0.9686	0.9672	0.9686	0.9463	0.9573
attr 9	0.0310	0.9925	0.9928	0.9925	0.9340	0.9624
average	0.2387	0.9298	0.9287	0.9298	0.8887	0.9080

Women Tshirts (Category 4)

Attribute	Val Loss	Val Accuracy	Weighted F1-Score	Micro F1-Score	Macro F1-Score	Harmonic Mean of F1
attr 1	0.4894	0.8374	0.8372	0.8374	0.8164	0.8432
attr 2	0.3434	0.8858	0.8664	0.8858	0.6241	0.7323
attr 3	0.3181	0.8841	0.8736	0.8841	0.7815	0.8296
attr 4	0.0911	0.9722	0.9724	0.9722	0.9129	0.9416
attr 5	0.7400	0.7482	0.7449	0.7482	0.7269	0.7374
attr 6	0.1510	0.9638	0.9598	0.9638	0.8620	0.9101
attr 7	0.0406	0.9845	0.9847	0.9845	0.9236	0.9531
attr 8	0.2613	0.9375	0.9073	0.9375	0.4839	0.6383
average	0.3043	0.9016	0.8932	0.9016	0.7664	0.8232

Women Tops & Tunics (Category 5)

Attribute	Val Loss	Val Accuracy	Weighted F1-Score	Micro F1-Score	Macro F1-Score	Harmonic Mean of F1
attr 1	0.4914	0.8711	0.8690	0.8711	0.8347	0.8525
attr 2	0.4670	0.8589	0.8560	0.8589	0.8297	0.8441
attr 3	0.2462	0.9195	0.9192	0.9195	0.9176	0.9185
attr 4	0.3858	0.8802	0.8807	0.8802	0.8596	0.8698
attr 5	0.0818	0.9745	0.9776	0.9745	0.7078	0.8200
attr 6	0.1812	0.9477	0.9462	0.9477	0.8696	0.9070
attr 7	0.2818	0.9235	0.9239	0.9235	0.8383	0.8788
attr 8	0.1994	0.9601	0.9603	0.9601	0.9526	0.9564
attr 9	0.2584	0.9395	0.9386	0.9395	0.9153	0.9272
attr 10	0.5723	0.8603	0.8621	0.8603	0.8219	0.8407
average	0.31653	0.91353	0.91336	0.91353	0.85471	0.8815

未来工作

计划重新审视视觉语言建模，尽管该方法显示出潜力，但在推理过程中每张图像需要约4秒，远超竞赛的时间限制。优化和高效扩展此类模型是未来的关键探索领域。

数据预处理与增强

通过微调分类器处理缺失值和类别不平衡问题。
动态应用图像增强，训练期间每张图像有50%的概率进行增强。
将图像调整为512x512像素以增强特征提取。

搜集汇总

数据集介绍

构建方式

在构建Meesho视觉分类数据挑战数据集时，研究团队采用了深度学习管道，以确保从供应商上传的图像中准确预测属性。首先，团队选择了`facebook/convnext-base-384-22k-1k`作为基础特征提取器，该模型在ImageNet-22k上预训练并在ImageNet-1k上微调，以实现强大的特征提取。其次，设计了共享特征骨干网络使用ConvNeXt，并针对每个属性定制了特定的分类器头，同时集成了空间和通道注意力机制。训练策略包括两阶段训练：初始端到端训练和针对个别属性的分类器头微调。此外，通过结合交叉熵和MMD损失进行初始训练，并使用交叉熵损失进行微调，以及应用图像增强（如调整大小和翻转）来提高模型的泛化能力。

特点

Meesho视觉分类数据挑战数据集的主要特点在于其高度定制化的深度学习模型和精细的训练策略。数据集不仅包含了丰富的图像数据，还通过空间和通道注意力机制增强了模型的特征提取能力。此外，两阶段的训练策略确保了模型在初始训练和微调阶段都能达到最佳性能。数据集还特别强调了在印度电子商务环境中常见的不完整或错误信息问题，通过图像增强和动态数据预处理，有效解决了类别不平衡和缺失值的问题。最终，该数据集在保证高精度的同时，实现了内存高效和快速推理，适用于资源有限的实际部署环境。

使用方法

使用Meesho视觉分类数据挑战数据集时，用户首先需要设置自定义环境，可以使用Kaggle的Docker文件`gcr.io/kaggle-gpu-images/python`。接着，根据用户环境调整`input_path`和`working_path`变量，并选择合适的`test_c_name`变量（如`c1`至`c5`，分别代表不同类别）。用户可以根据可用GPU资源调整`NUM_EPOCH`和`NUM_ATTR_EPOCHS`变量，以控制训练的轮数。此外，用户可以从Google Drive下载模型权重，并设置相应的路径以进行推理。推理代码包括后处理步骤，直接生成CSV格式的输出文件，便于后续分析和应用。

背景与挑战

背景概述

Meesho Visual Taxonomy Data Challenge数据集由Neel Shah、Sneh Shah和Harsh Maheshwari等研究人员于近期创建，旨在解决印度电子商务平台中供应商上传图像与产品描述不一致的问题。该数据集的核心研究问题是通过图像预测产品属性，确保电子商务平台上的产品信息准确无误。这一研究对印度电子商务领域具有重要意义，因为不准确或不完整的产品信息是该市场的常见问题。通过发布该数据集，研究人员希望鼓励创新解决方案，提升电子商务平台的用户体验和运营效率。

当前挑战

Meesho Visual Taxonomy Data Challenge数据集面临的挑战主要包括两个方面。首先，数据集需要解决的领域问题是图像分类中的属性预测，这在印度电子商务市场中尤为复杂，因为供应商上传的图像与描述信息常常不匹配。其次，数据集构建过程中遇到的挑战包括处理缺失值和类别不平衡问题，以及通过图像增强技术提高模型的泛化能力。此外，模型训练过程中出现的bug和性能优化问题也是该数据集需要克服的重要挑战。

常用场景

经典使用场景

在电子商务领域，Meesho Visual Taxonomy Data Challenge数据集的经典使用场景主要集中在图像属性预测上。该数据集通过提供供应商上传的产品图像，旨在帮助平台自动预测并填充产品属性，如袖长、颜色等。这一过程不仅提高了产品信息的准确性，还显著减少了人工审核的工作量，特别是在印度等市场，产品描述的不一致性问题尤为突出。

衍生相关工作

基于该数据集，研究者们开发了多种图像识别和分类模型，如ConvNeXt和Vision-Language Modeling。这些模型不仅在属性预测任务中表现出色，还为其他相关领域的研究提供了新的思路和方法。例如，Vision-Language Modeling的初步实验展示了其在图像理解和描述生成方面的潜力，尽管在效率上仍需进一步优化。

数据集最近研究