Polyvore Dataset|时尚搭配数据集|数据分析数据集

github2024-05-08 更新2024-05-31 收录

时尚搭配

数据分析

下载链接：

https://github.com/xthan/polyvore-dataset

下载链接

链接失效反馈

资源简介：

该数据集包含21,889个来自polyvore.com的服装搭配，用于训练、验证和测试。每个搭配包含名称、浏览量、服装项目、图片URL、点赞数、上传日期和描述等信息。数据集还包括用于评估填充空白时尚推荐任务的问题和答案，以及时尚兼容性预测任务的数据。

This dataset comprises 21,889 fashion outfits sourced from polyvore.com, designated for training, validation, and testing purposes. Each outfit includes details such as the name, view count, clothing items, image URLs, like counts, upload dates, and descriptions. Additionally, the dataset provides questions and answers for evaluating the task of filling in the blanks for fashion recommendations, as well as data for the task of predicting fashion compatibility.

创建时间：

2017-08-26

原始信息汇总

数据集概述

数据集名称

Polyvore Dataset

数据集来源

源自ACM MM17论文 "Learning Fashion Compatibility with Bidirectional LSTMs"。

数据集内容

Polyvore outfits: 包含21,889套服装，其中17,316套用于训练，1,497套用于验证，3,076套用于测试。
JSON文件结构: 每套服装包含名称、浏览次数、服装项目列表、图片URL、喜欢次数、上传日期、URL和描述。
服装项目信息: 包括索引、名称、价格、喜欢次数、图片URL和类别ID。
图片URL: 已失效，可通过Kaggle页面获取。
类别ID映射: 提供类别ID与类别名称的映射文件。

数据集任务

Fill-in-the-blank Fashion Recommendation: 包含用于评估的任务数据，格式为问题、答案和空白位置。
Fashion Compatibility Prediction: 包含约7,000套服装，用于评估服装兼容性。

数据集下载

可通过Google Drive和Kaggle下载。

数据集版本

提供一个清理版本的数据集：Cleaned Maryland。

数据集联系

作者: Xintong Han
联系方式: xintong@umd.edu

数据集引用

引用格式请参考README文件中的引用部分。

AI搜集汇总

数据集介绍

构建方式

Polyvore数据集的构建基于Polyvore.com网站上的用户创建和上传的服装搭配数据。该数据集包含了21,889套服装搭配，其中17,316套用于训练，1,497套用于验证，3,076套用于测试。每套服装搭配以JSON格式记录，包含服装名称、浏览次数、服装单品信息（如名称、价格、点赞数、图片URL、类别ID等）以及上传日期等详细信息。此外，数据集还提供了类别ID与类别名称的映射文件，确保数据的完整性和可解释性。

使用方法

使用Polyvore数据集时，用户首先需下载并解压polyvore.tar.gz文件，获取包含训练、验证和测试集的JSON文件。数据集支持多种任务，如填空式服装推荐和服装兼容性预测，用户可根据具体研究需求选择相应的数据文件。对于填空式推荐任务，用户可使用fill_in_the_blank_test.json文件，其中包含问题和多个选择答案。对于兼容性预测任务，用户可使用fashion-compatibility-prediction.txt文件，该文件提供了兼容和不兼容的服装搭配数据。

背景与挑战

背景概述

Polyvore数据集是由Xintong Han等研究人员于2017年创建的，旨在支持时尚兼容性研究。该数据集源自Polyvore.com，一个用户可以创建和上传服装搭配的流行时尚网站。数据集包含了21,889套服装搭配，分为训练集、验证集和测试集，分别用于不同的实验目的。该数据集的核心研究问题是如何通过双向LSTM模型学习时尚兼容性，这一研究对时尚推荐系统和个性化服装搭配领域产生了深远影响。

当前挑战

Polyvore数据集在构建过程中面临多个挑战。首先，数据集中的图像URL已失效，需通过Kaggle等平台获取原始图像，这增加了数据处理的复杂性。其次，数据集中包含了非时尚类别的物品，如背景和装饰，这些物品在数据清洗过程中被删除，导致物品索引不连续。此外，数据集还涉及时尚兼容性预测和填空式时尚推荐等任务，这些任务在模型训练和评估中提出了新的技术挑战。

常用场景

经典使用场景

Polyvore Dataset 的经典使用场景主要集中在时尚兼容性预测和时尚推荐系统领域。该数据集通过提供丰富的时尚套装信息，包括每个套装中的时尚单品及其属性，如价格、类别、受欢迎程度等，使得研究者能够训练和验证用于预测时尚单品兼容性的模型。此外，数据集还支持填空式时尚推荐任务，即在给定部分时尚单品的情况下，推荐最合适的缺失单品，从而推动了个性化时尚推荐系统的发展。

解决学术问题

Polyvore Dataset 解决了时尚领域中关于单品兼容性和推荐系统的关键学术问题。通过提供大规模的时尚套装数据，该数据集使得研究者能够深入探索如何利用深度学习技术，如双向LSTM，来学习时尚单品的兼容性。这不仅推动了时尚推荐系统的研究进展，还为理解用户在时尚搭配中的偏好提供了宝贵的数据支持，从而在学术界产生了广泛的影响。

实际应用

在实际应用中，Polyvore Dataset 为时尚电商平台和个性化推荐服务提供了强大的数据支持。通过利用该数据集训练的模型，电商平台可以为用户推荐与其已选单品兼容的其他时尚单品，从而提升用户的购物体验和购买转化率。此外，时尚设计师和造型师也可以利用这些模型来获取灵感，优化他们的设计方案，进一步推动时尚产业的创新和发展。

数据集最近研究

最新研究方向

在时尚领域的研究中，Polyvore Dataset因其丰富的时尚搭配数据而备受关注。最新的研究方向主要集中在利用深度学习技术，如双向LSTM，来学习时尚兼容性，并通过填充空白任务和时尚兼容性预测任务来评估模型的性能。此外，随着AI美学能力的提升，研究者们也开始探索如何通过数据集如A100来衡量AI模型在时尚美学上的表现。这些研究不仅推动了时尚推荐系统的发展，也为个性化时尚搭配提供了新的可能性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集，包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境，包括行人、车辆、自行车等多种目标，以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集，手动标注了超过260万个目标边界框，并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集，包含12,163个临床案例，涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程，强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”，经过专业医生验证和去识别化处理，确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力，解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录