prefit-multimodal-synthetic

Hugging Face2026-01-15 更新2026-01-16 收录

下载链接：

https://huggingface.co/datasets/shiraBASH/prefit-multimodal-synthetic

下载链接

链接失效反馈

官方服务：

资源简介：

PreFit-Synth是一个小型合成多模态数据集，专为服装搭配规划应用程序（PreFit）设计。每个示例包含：一张合成服装项目的图像（平铺产品风格图像）、一个用户请求（场合+风格+季节）以及一个推荐的服装搭配（3-4个互补项目图像ID）和简短解释。数据集通过预训练的Hugging Face模型生成图像，并通过程序规则构建服装组合和提示。数据集包含100个示例，图像存储在images/文件夹中，元数据存储在metadata.csv和multimodal_pairs.csv文件中。数据集适用于多模态检索、基于嵌入的相似性搜索和UI演示。

创建时间：

2026-01-13

原始信息汇总

PreFit-Synth (Multi-Modal Outfit Dataset) 数据集概述

数据集基本信息

数据集名称: PreFit-Synth (Multi-Modal)
语言: 英语 (en)
标签: 合成数据 (synthetic)、多模态 (multimodal)、时尚 (fashion)、推荐系统 (recommendation)、计算机视觉 (computer-vision)、自然语言处理 (nlp)
许可证: MIT
配置名称: default
数据文件: train 分割，路径为 data/train-*
下载大小: 40361409 字节
数据集大小: 40381237.0 字节

数据内容与结构

特征字段

anchor_image_id: 字符串类型，锚点图像ID。
anchor_category_group: 字符串类型，锚点类别组。
input_text: 字符串类型，输入文本（用户请求）。
outfit_image_ids: 字符串类型，推荐搭配的图像ID（管道分隔）。
outfit_description: 字符串类型，搭配描述。
image: 图像类型，合成服装项目图像（平铺产品风格图像）。
category_group: 字符串类型，类别组。
item_name: 字符串类型，物品名称。
color: 字符串类型，颜色。
style: 字符串类型，风格。
season: 字符串类型，季节。

数据分割

train: 包含 100 个样本，总大小为 40381237.0 字节。

数据集文件

images/ 目录：包含 100 张生成的 PNG 图像。
metadata.csv 文件：每张图像的元数据（类别、颜色、季节、风格、提示），共 100 行 × 8 列。
multimodal_pairs.csv 文件：包含 100 个多模态示例，共 100 行 × 5 列。

探索性数据分析摘要

数据质量

两个表格中均无缺失值。
image_id 和 anchor_image_id 中无重复值。

数据分布

类别在 上衣/下装/鞋子/外衣 之间分布相当均衡。
季节分布在 冬季、春季、夏季、秋季。
风格包括 休闲商务、简约、休闲、街头、运动。

多模态文本

input_text 长度一致（大约 ~70 个字符），便于用于嵌入和检索。

搭配结构

搭配大小为 3 件物品（上衣/下装/鞋子）或 4 件物品（主要为寒冷季节添加外衣）。

视觉检查

样本图像网格显示，在简单背景上有清晰的产品风格服装图像，适用于相似性搜索和推荐演示。

预期用途

该数据集设计用于：

多模态检索（图像 + 文本 → 搭配推荐）
基于嵌入的相似性搜索（例如，CLIP 嵌入）
UI 演示（Gradio / HF Spaces）

局限性

合成图像可能包含伪影，不代表真实的零售产品。
搭配推荐是基于元数据的规则组合。

搜集汇总

数据集介绍

构建方式

在时尚推荐与多模态学习领域，PreFit-Synth数据集通过合成生成技术构建而成。该数据集利用预训练的扩散模型生成服装图像，并结合程序化规则设计搭配组合与文本提示。具体而言，图像部分借助stabilityai/sd-turbo模型生成了100张平铺产品风格的合成图像；文本部分则基于用户场景、风格与季节需求构建输入请求；输出部分通过规则引擎生成包含3至4件互补单品的搭配方案及其解释，从而形成结构化的多模态样本。

特点

PreFit-Synth数据集展现出鲜明的多模态特性，融合了视觉、文本与结构化元数据。其图像数据均为合成生成的服装单品，背景简洁，适于视觉检索任务；文本输入长度均匀，约70字符，便于嵌入表示与匹配。数据覆盖了上衣、下装、鞋履与外衣等平衡的品类分布，并囊括四季场景及多种时尚风格。每一条样本均包含锚定图像、用户请求、搭配图像列表与描述，构成了完整的推荐逻辑链条，为多模态检索与相似性搜索提供了清晰的数据基础。

使用方法

该数据集适用于多模态检索与推荐系统的开发与验证。研究者可借助CLIP等嵌入模型，学习图像与文本的联合表示，实现基于用户请求的服装搭配检索。在实际应用中，可将输入文本与锚定图像作为查询，检索出符合场景、风格与季节的成套搭配；也可利用图像嵌入进行相似单品推荐，构建交互式演示界面。数据集结构清晰，可直接加载至机器学习流程，用于训练或评估多模态匹配模型，尤其适合在轻量级环境中验证推荐算法的有效性。

背景与挑战

背景概述

随着多模态人工智能技术的快速发展，时尚推荐系统正从单一模态分析转向融合视觉与文本信息的综合理解。在此背景下，PreFit-Synth数据集应运而生，由研究团队于近期创建，旨在为服装搭配规划应用提供合成多模态数据支持。该数据集的核心研究问题聚焦于如何通过生成式模型与规则逻辑，构建包含图像、文本及搭配输出的结构化样本，以推动多模态检索与嵌入相似性搜索等任务的算法验证与原型演示。尽管规模较小，但其在合成数据生成与多模态任务设计方面的探索，为轻量级、可控的时尚人工智能研究提供了有价值的实验基础。

当前挑战

PreFit-Synth数据集致力于解决多模态时尚推荐中的核心挑战，即如何实现跨模态的语义对齐与个性化搭配生成。具体而言，该领域问题面临图像与文本细粒度匹配的复杂性，以及时尚元素组合的审美与功能性平衡等难点。在构建过程中，数据集亦遭遇显著挑战：合成图像虽避免了真实数据采集的隐私与版权约束，但可能引入视觉伪影，且无法完全反映真实零售产品的多样性；同时，基于规则的搭配生成虽保障了结构一致性，却限制了搭配的创意性与动态适应性，难以捕捉用户偏好的微妙变化。这些挑战共同指向了合成数据在真实性、多样性与逻辑灵活性方面的固有局限。

常用场景

经典使用场景

在时尚推荐系统的多模态研究领域，PreFit-Synth数据集为探索图像与文本的协同检索提供了经典场景。该数据集通过合成生成的服装图像与用户请求文本的配对，模拟了真实世界中的穿搭规划任务。研究者可基于此构建多模态嵌入模型，实现从用户描述的场合、风格和季节等文本输入，到推荐完整搭配服饰图像的端到端检索流程，尤其适用于验证跨模态对齐与相似性搜索算法的有效性。

实际应用

在实际应用层面，PreFit-Synth可直接服务于时尚电商与虚拟试衣平台的推荐引擎原型开发。其合成的产品风格图像与结构化元数据，能够快速集成到基于相似性搜索的演示系统（如Gradio或Hugging Face Spaces）中，为用户提供个性化的穿搭建议。尽管图像为合成生成，但其清晰的背景与平衡的类别分布，使其成为验证推荐界面交互与多模态检索流程的理想测试数据。

衍生相关工作

围绕该数据集，已衍生出多模态嵌入与检索方向的经典研究工作。例如，基于CLIP等预训练模型的多模态表示学习，被广泛应用于从文本查询到服装图像的跨模态匹配任务。此外，结合其结构化元数据（如类别、颜色、季节），研究者进一步开发了基于规则的搭配生成与解释性推荐系统，推动了时尚领域多模态推理与可解释人工智能的交叉探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集