five

Meesho Visual Taxonomy Data Challenge

收藏
github2024-11-18 更新2024-11-22 收录
下载链接:
https://github.com/NeelDevenShah/Meesho-Visual-Taxonomy-Data-Challenge
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于预测供应商上传图像的属性,作为电子商务平台目录的一部分。任务对于确保属性的准确性和完整性至关重要,特别是在印度电子商务环境中,错误的或不完整的信息是一个常见问题。

This dataset is developed to predict the attributes of images uploaded by vendors for inclusion in an e-commerce platform's product catalog. This task is critical for ensuring the accuracy and completeness of these attributes, especially in the Indian e-commerce ecosystem, where erroneous or incomplete product information is a pervasive issue.
创建时间:
2024-10-19
原始信息汇总

Meesho Visual Taxonomy Data Challenge - Team ML Maverick

数据集概述

该数据集用于Meesho视觉分类数据挑战,旨在从供应商上传的图像中预测产品属性,以确保电子商务平台上的产品目录信息准确完整。

问题陈述

任务是从供应商上传的图像中准确预测产品属性,以避免描述与图像不符的情况。

数据集概览

数据集概览

方法与方法论

模型选择

  • 使用facebook/convnext-base-384-22k-1k作为基础特征提取器,预训练于ImageNet-22k,并在ImageNet-1k上进行微调。

架构

  • 共享特征主干使用ConvNeXt。
  • 属性特定的分类器头,针对每个属性进行定制。
  • 集成空间和通道注意力机制。

训练策略

  • 两阶段训练:
    • 初始端到端训练全模型。
    • 微调分类器头以适应个别属性。
  • 使用组合的交叉熵和MMD损失进行初始训练,使用交叉熵损失进行微调。
  • 对训练图像进行增强(如调整大小、翻转)以提高泛化能力。

效率

  • 模型在部署时表现出内存效率,需要最小的计算资源。
  • 在不同类别中,推理时间在9.4–10.4张图像每秒之间。

结果

总体结果

  • 在私有排行榜上获得第23名,最终F1得分为76.93%,与第一名相差3.27%。

评估指标

验证数据集上的评估指标

类别 Micro-F1-score Macro-F1-score Harmonic mean of micro and macro f1 score
Men Tshirts 0.972 0.967 0.969
Sarees 0.754 0.534 0.6252
Kurtis 0.929 0.888 0.908
Women Tshirts 0.901 0.766 0.828
Women Tops & Tunics 0.913 0.854 0.882

详细指标

  • Men Tshirts (Category 1)

    Attribute Val Loss Val Accuracy Weighted F1-score Micro F1-score Macro F1-score Harmonic Mean of F1
    attr_1 0.2893 0.9100 0.9102 0.9100 0.9133 0.9116
    attr_2 0.0152 0.9984 0.9984 0.9984 0.9984 0.9984
    attr_3 0.0518 0.9897 0.9897 0.9897 0.9896 0.9896
    attr_4 0.1097 0.9645 0.9645 0.9645 0.9431 0.9537
    attr_5 0.0140 0.9983 0.9983 0.9983 0.9919 0.9951
    average 0.0962 0.9721 0.9722 0.9721 0.9672 0.9696
  • Sarees (Category 2)

    Attribute Val Loss Val Accuracy Weighted F1-Score Micro F1-Score Macro F1-Score Harmonic Mean of F1
    attr_1 0.5766 0.7335 0.7399 0.7335 0.5821 0.6491
    attr_2 0.7649 0.7002 0.6942 0.7002 0.6440 0.6709
    attr_3 0.2415 0.9021 0.8894 0.9021 0.6299 0.7418
    attr_4 0.9826 0.5839 0.5093 0.5839 0.4575 0.5131
    attr_5 0.6890 0.7398 0.7202 0.7398 0.5924 0.6580
    attr_6 0.3215 0.8940 0.8754 0.8940 0.5969 0.7158
    attr_7 0.8439 0.6182 0.5556 0.6182 0.4530 0.5229
    attr_8 0.4434 0.8315 0.7804 0.8315 0.3240 0.4663
    attr_9 0.9015 0.7052 0.6804 0.7052 0.5938 0.6447
    attr_10 0.3686 0.8343 0.7626 0.8343 0.4711 0.6021
    average 0.6133 0.7542 0.7207 0.7542 0.5344 0.6184
  • Kurtis (Category 3)

    Attribute Val Loss Val Accuracy Weighted F1-Score Micro F1-Score Macro F1-Score Harmonic Mean of F1
    attr 1 0.4018 0.8712 0.8678 0.8712 0.7490 0.8055
    attr 2 0.2888 0.9105 0.9101 0.9105 0.9021 0.9063
    attr 3 0.4849 0.8471 0.8466 0.8471 0.8395 0.8432
    attr 4 0.1976 0.9581 0.9544 0.9581 0.8179 0.8825
    attr 5 0.1535 0.9537 0.9527 0.9537 0.9429 0.9483
    attr 6 0.2128 0.9349 0.9350 0.9349 0.9349 0.9349
    attr 7 0.2329 0.9323 0.9322 0.9323 0.9318 0.9321
    attr 8 0.1457 0.9686 0.9672 0.9686 0.9463 0.9573
    attr 9 0.0310 0.9925 0.9928 0.9925 0.9340 0.9624
    average 0.2387 0.9298 0.9287 0.9298 0.8887 0.9080
  • Women Tshirts (Category 4)

    Attribute Val Loss Val Accuracy Weighted F1-Score Micro F1-Score Macro F1-Score Harmonic Mean of F1
    attr 1 0.4894 0.8374 0.8372 0.8374 0.8164 0.8432
    attr 2 0.3434 0.8858 0.8664 0.8858 0.6241 0.7323
    attr 3 0.3181 0.8841 0.8736 0.8841 0.7815 0.8296
    attr 4 0.0911 0.9722 0.9724 0.9722 0.9129 0.9416
    attr 5 0.7400 0.7482 0.7449 0.7482 0.7269 0.7374
    attr 6 0.1510 0.9638 0.9598 0.9638 0.8620 0.9101
    attr 7 0.0406 0.9845 0.9847 0.9845 0.9236 0.9531
    attr 8 0.2613 0.9375 0.9073 0.9375 0.4839 0.6383
    average 0.3043 0.9016 0.8932 0.9016 0.7664 0.8232
  • Women Tops & Tunics (Category 5)

    Attribute Val Loss Val Accuracy Weighted F1-Score Micro F1-Score Macro F1-Score Harmonic Mean of F1
    attr 1 0.4914 0.8711 0.8690 0.8711 0.8347 0.8525
    attr 2 0.4670 0.8589 0.8560 0.8589 0.8297 0.8441
    attr 3 0.2462 0.9195 0.9192 0.9195 0.9176 0.9185
    attr 4 0.3858 0.8802 0.8807 0.8802 0.8596 0.8698
    attr 5 0.0818 0.9745 0.9776 0.9745 0.7078 0.8200
    attr 6 0.1812 0.9477 0.9462 0.9477 0.8696 0.9070
    attr 7 0.2818 0.9235 0.9239 0.9235 0.8383 0.8788
    attr 8 0.1994 0.9601 0.9603 0.9601 0.9526 0.9564
    attr 9 0.2584 0.9395 0.9386 0.9395 0.9153 0.9272
    attr 10 0.5723 0.8603 0.8621 0.8603 0.8219 0.8407
    average 0.31653 0.91353 0.91336 0.91353 0.85471 0.8815

未来工作

计划重新审视视觉语言建模,尽管该方法显示出潜力,但在推理过程中每张图像需要约4秒,远超竞赛的时间限制。优化和高效扩展此类模型是未来的关键探索领域。

数据预处理与增强

  • 通过微调分类器处理缺失值和类别不平衡问题。
  • 动态应用图像增强,训练期间每张图像有50%的概率进行增强。
  • 将图像调整为512x512像素以增强特征提取。
搜集汇总
数据集介绍
main_image_url
构建方式
在构建Meesho视觉分类数据挑战数据集时,研究团队采用了深度学习管道,以确保从供应商上传的图像中准确预测属性。首先,团队选择了`facebook/convnext-base-384-22k-1k`作为基础特征提取器,该模型在ImageNet-22k上预训练并在ImageNet-1k上微调,以实现强大的特征提取。其次,设计了共享特征骨干网络使用ConvNeXt,并针对每个属性定制了特定的分类器头,同时集成了空间和通道注意力机制。训练策略包括两阶段训练:初始端到端训练和针对个别属性的分类器头微调。此外,通过结合交叉熵和MMD损失进行初始训练,并使用交叉熵损失进行微调,以及应用图像增强(如调整大小和翻转)来提高模型的泛化能力。
特点
Meesho视觉分类数据挑战数据集的主要特点在于其高度定制化的深度学习模型和精细的训练策略。数据集不仅包含了丰富的图像数据,还通过空间和通道注意力机制增强了模型的特征提取能力。此外,两阶段的训练策略确保了模型在初始训练和微调阶段都能达到最佳性能。数据集还特别强调了在印度电子商务环境中常见的不完整或错误信息问题,通过图像增强和动态数据预处理,有效解决了类别不平衡和缺失值的问题。最终,该数据集在保证高精度的同时,实现了内存高效和快速推理,适用于资源有限的实际部署环境。
使用方法
使用Meesho视觉分类数据挑战数据集时,用户首先需要设置自定义环境,可以使用Kaggle的Docker文件`gcr.io/kaggle-gpu-images/python`。接着,根据用户环境调整`input_path`和`working_path`变量,并选择合适的`test_c_name`变量(如`c1`至`c5`,分别代表不同类别)。用户可以根据可用GPU资源调整`NUM_EPOCH`和`NUM_ATTR_EPOCHS`变量,以控制训练的轮数。此外,用户可以从Google Drive下载模型权重,并设置相应的路径以进行推理。推理代码包括后处理步骤,直接生成CSV格式的输出文件,便于后续分析和应用。
背景与挑战
背景概述
Meesho Visual Taxonomy Data Challenge数据集由Neel Shah、Sneh Shah和Harsh Maheshwari等研究人员于近期创建,旨在解决印度电子商务平台中供应商上传图像与产品描述不一致的问题。该数据集的核心研究问题是通过图像预测产品属性,确保电子商务平台上的产品信息准确无误。这一研究对印度电子商务领域具有重要意义,因为不准确或不完整的产品信息是该市场的常见问题。通过发布该数据集,研究人员希望鼓励创新解决方案,提升电子商务平台的用户体验和运营效率。
当前挑战
Meesho Visual Taxonomy Data Challenge数据集面临的挑战主要包括两个方面。首先,数据集需要解决的领域问题是图像分类中的属性预测,这在印度电子商务市场中尤为复杂,因为供应商上传的图像与描述信息常常不匹配。其次,数据集构建过程中遇到的挑战包括处理缺失值和类别不平衡问题,以及通过图像增强技术提高模型的泛化能力。此外,模型训练过程中出现的bug和性能优化问题也是该数据集需要克服的重要挑战。
常用场景
经典使用场景
在电子商务领域,Meesho Visual Taxonomy Data Challenge数据集的经典使用场景主要集中在图像属性预测上。该数据集通过提供供应商上传的产品图像,旨在帮助平台自动预测并填充产品属性,如袖长、颜色等。这一过程不仅提高了产品信息的准确性,还显著减少了人工审核的工作量,特别是在印度等市场,产品描述的不一致性问题尤为突出。
衍生相关工作
基于该数据集,研究者们开发了多种图像识别和分类模型,如ConvNeXt和Vision-Language Modeling。这些模型不仅在属性预测任务中表现出色,还为其他相关领域的研究提供了新的思路和方法。例如,Vision-Language Modeling的初步实验展示了其在图像理解和描述生成方面的潜力,尽管在效率上仍需进一步优化。
数据集最近研究
最新研究方向
在电子商务领域,Meesho Visual Taxonomy Data Challenge数据集的最新研究方向主要集中在图像属性预测的精确性和效率上。随着印度电子商务市场的快速增长,供应商上传的图像与产品描述不匹配的问题日益突出,这促使研究人员开发更先进的深度学习模型来解决这一问题。当前的研究趋势包括使用预训练的ConvNeXt模型进行特征提取,结合空间和通道注意力机制以提高分类器的准确性,以及通过两阶段训练策略优化模型的性能。此外,未来的研究可能会探索视觉-语言模型的优化和扩展,以进一步提高预测的准确性和效率,同时确保模型在实际应用中的可行性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作