five

Pinterest Complete The Look data

收藏
github2024-05-22 更新2024-05-31 收录
下载链接:
https://github.com/eileenforwhat/complete-the-look-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于论文Bootstrapping Complete The Look at Pinterest,包含训练和测试数据,主要用于时尚物品的视觉关系分析。数据集提供了详细的统计信息和格式说明,支持TSV和JSON格式。

This dataset is developed for the paper *Bootstrapping Complete The Look at Pinterest*. It contains training and test data, and is primarily intended for visual relationship analysis of fashion items. The dataset provides detailed statistical information and format specifications, and supports both TSV and JSON formats.
创建时间:
2020-06-13
原始信息汇总

数据集概述

数据集名称

  • Complete The Look Dataset

数据集来源

数据集内容

  • 包含10%的训练数据集和完整的测试数据集。
  • 训练数据集包含107,895套服装和454,351个时尚物品。
  • 测试数据集包含24,960套服装和109,471个时尚物品。
  • 共有21个类别。

数据集统计

  • 总体统计

    类型 训练集 测试集
    服装套数 107,895 24,960
    时尚物品数 454,351 109,471
    类别数 21 21
  • 类别统计(前10)

    类别 训练集 测试集
    鞋子 94,059 22,728
    手袋 88,955 20,729
    衬衫 57,250 14,451
    裤子 51,706 11,666
    外套 43,552 9,698
    连衣裙 28,066 6,903
    珠宝 24,409 7,813
    帽子 18,581 4,343
    裙子 15,152 3,630
    太阳镜 9,343 2,174
  • 服装物品数量统计

    物品数量 训练集 测试集
    3 24,545 5,383
    4 46,545 9,288
    5 27,643 6,616
    6 7,927 2,786
    7 1,127 722
    8 102 165

数据集格式

  • 数据集以TSV格式提供。
  • 包含两种版本:
    1. 原始数据集(训练和测试): (image_signature, bounding_x, bounding_y, bounding_width, bounding_height, label)
    2. 三元组数据集(仅训练): (image_signature_anchor, bounding_x_anchor, bounding_y_anchor, bounding_width_anchor, bounding_height_anchor, label, image_signature_pos, bounding_x_pos, bounding_y_pos, bounding_width_pos, bounding_height_pos, label, image_signature_neg, bounding_x_neg, bounding_y_neg, bounding_width_neg, bounding_height_neg, label)

附加信息

  • 包含从原始测试数据集创建的FITB问题,格式为JSON
  • 图像签名用于获取图像URL。
  • 边界框坐标为归一化值。

数据集使用

  • 使用数据集时,请引用相关论文。
搜集汇总
数据集介绍
main_image_url
构建方式
Pinterest Complete The Look数据集的构建基于大规模的时尚搭配图像,通过提取图像中的时尚物品及其边界框信息,形成了一个包含107,895个训练搭配和24,960个测试搭配的数据集。每个搭配由多个时尚物品组成,涵盖21个不同的类别。数据集的构建过程中,采用了图像签名和边界框坐标的方式来标识每个物品,确保了数据的精确性和一致性。此外,数据集还提供了三元组样本,通过采样同一搭配中的不同类别物品和不同搭配中的相同类别物品,增强了数据集的多样性和复杂性。
特点
该数据集的主要特点在于其丰富的时尚物品类别和多样化的搭配组合。数据集包含了21个不同的时尚类别,涵盖了从鞋子、手袋到服装和配饰等多种物品。每个搭配由3到8个物品组成,提供了不同复杂度的搭配样本。此外,数据集还提供了三元组样本,通过对比同一搭配中的不同类别物品和不同搭配中的相同类别物品,增强了数据集的对比性和学习价值。数据集的格式包括原始数据和三元组数据,分别适用于不同的研究需求。
使用方法
Pinterest Complete The Look数据集的使用方法多样,适用于多种时尚搭配相关的研究任务。数据集提供了TSV格式的原始数据和三元组数据,用户可以根据研究需求选择合适的数据格式。原始数据包含了图像签名、边界框坐标和物品类别信息,适用于搭配推荐和物品识别等任务。三元组数据则适用于对比学习任务,通过对比同一搭配中的不同类别物品和不同搭配中的相同类别物品,提升模型的学习效果。此外,数据集还提供了FITB问题的JSON格式数据,适用于时尚搭配的问答系统研究。
背景与挑战
背景概述
Pinterest Complete The Look数据集是由Pinterest公司于2020年发布的,旨在解决时尚搭配推荐中的核心问题。该数据集由Pinterest的研究团队创建,主要研究人员通过分析用户在平台上的时尚搭配行为,构建了一个包含大量时尚物品及其搭配关系的数据集。该数据集的核心研究问题是如何通过机器学习算法自动生成合理的时尚搭配建议,从而提升用户体验。此数据集的发布对时尚推荐系统领域产生了深远影响,为研究人员提供了一个丰富的资源来探索和验证新的算法和技术。
当前挑战
Pinterest Complete The Look数据集在构建过程中面临了多个挑战。首先,数据集的构建需要从海量的用户生成内容中提取有用的时尚搭配信息,这要求高效的图像处理和数据清洗技术。其次,如何确保数据集中的搭配建议既符合时尚趋势又具有实用性,是一个复杂的问题。此外,数据集的多样性和代表性也是一个重要挑战,确保不同风格和类别的时尚物品都能得到充分体现。最后,数据集的标注和分类需要高度专业化的知识,以确保标注的准确性和一致性。
常用场景
经典使用场景
在时尚领域,Pinterest Complete The Look数据集的经典使用场景主要集中在服装搭配的自动化推荐系统中。通过分析数据集中的图像特征和服装类别,研究者可以构建模型,自动识别和推荐与现有服装搭配的互补单品,从而提升用户的购物体验和时尚品味。
衍生相关工作
基于Pinterest Complete The Look数据集,衍生了一系列相关的经典工作,包括服装搭配推荐算法的研究、图像识别技术的优化以及个性化推荐系统的构建。这些工作不仅在学术界引起了广泛关注,还在工业界得到了实际应用,推动了时尚科技的进步。
数据集最近研究
最新研究方向
在时尚推荐系统领域,Pinterest Complete The Look数据集的最新研究方向主要集中在利用深度学习技术提升服装搭配的个性化推荐精度。研究者们通过构建复杂的神经网络模型,结合图像特征提取和上下文信息,旨在更准确地预测用户对特定服装组合的偏好。此外,数据集中的三元组样本(anchor, pos, neg)被广泛应用于对比学习任务,以增强模型的区分能力。这些研究不仅推动了时尚推荐系统的发展,也为个性化购物体验提供了新的技术支持。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作