apparel23-qwen32b-kept-outfits-with-products

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/flavianv/apparel23-qwen32b-kept-outfits-with-products

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为“Apparel23 kept outfit bundles (with products)”，是Amazon Apparel 2023的outfit bundles（包含产品）集合。它作为DeepShopper项目中AMZ端的核心数据源，主要用于训练奖励模型V0（即qwen4b-apparel23-bundle-sft），同时为奖励模型V1提供正样本数据，生成Reducer的软黄金目标，并支持AMZ映射器的需求。数据集以JSONL格式提供，包含训练集（sft.train.jsonl）和测试集（sft.test.jsonl）。数据来源于公开的Amazon数据，仅限于研究用途。该数据集适用于文本生成、时尚推荐和outfit组合等任务，特别关注时尚领域的个性化推荐系统开发。

The dataset is named Apparel23 kept outfit bundles (with products) and is a collection of outfit bundles (including products) for Amazon Apparel 2023. It serves as the core data source for the AMZ side of the DeepShopper project, primarily used for training the reward model V0 (i.e., qwen4b-apparel23-bundle-sft), while also providing positive sample data for reward model V1, generating soft gold targets for the Reducer, and supporting the needs of the AMZ mapper. The dataset is provided in JSONL format, including a training set (sft.train.jsonl) and a test set (sft.test.jsonl). The data is sourced from publicly available Amazon data and is limited to research purposes. It is suitable for tasks such as text generation, fashion recommendation, and outfit combination, with a particular focus on the development of personalized recommendation systems in the fashion domain.

创建时间：

2026-06-16

原始信息汇总

数据集概述

数据集名称：Apparel23 kept outfit bundles (with products)

许可证：other（其他）

语言：英语

任务类别：文本生成

标签：deepshopper, recommendation, fashion, outfit

来源：基于公开的 Amazon 数据

用途：研究用途

数据集详情

内容：包含 Amazon Apparel 2023 年的服装搭配包（outfit bundles），每个搭配包由一组带有角色标签的产品组成。
数据文件：sft.{train,test}.jsonl，包含训练集和测试集。
相关项目：DeepShopper，该数据集用于其 AMZ 侧训练，具体包括：
- 训练奖励模型 V0（对应模型：qwen4b-apparel23-bundle-sft）。
- 为奖励模型 V1 提供正样本种子。
- 为 Reducer 模型提供软黄金目标（soft-gold targets）。
- 提供 AMZ 映射（mapper）所需的数据。
相关代码：https://github.com/clijo/reco-rl（分支：outfit_bundle）。

搜集汇总

数据集介绍

构建方式

该数据集源自Amazon Apparel 2023公开数据，通过提取用户保留的服装搭配组合（outfit bundles）构建而成。每个样本都包含一个“需求”描述及其对应的角色标记产品组合，这些组合经过精心筛选，作为强化学习中的黄金标准来源。数据以JSONL格式存储，划分为训练集和测试集（sft.train.jsonl与sft.test.jsonl），便于后续模型微调与评估。

特点

数据集具备鲜明的多任务属性，既用于训练DeepShopper项目中的奖励模型V0版本（qwen4b-apparel23-bundle-sft），又为奖励模型V1提供正样本种子，同时支撑Reducer模型的软黄金目标生成。其与亚马逊产品映射器（AMZ mapper）紧密关联，构成了从需求到搭配推荐的完整闭环。所有数据仅限研究用途，并依托公开的代码仓库（reco-rl）确保可复现性。

使用方法

用户可直接加载JSONL文件中的sft.train与sft.test子集，将其应用于文本生成任务的微调，特别是针对时尚搭配推荐场景。推荐按照DeepShopper框架的设定，使用该数据集训练或评估基于Qwen架构的奖励模型，也可作为对比学习的正例来源。对于希望复现研究的用户，可访问配套GitHub仓库（reco-rl的outfit_bundle分支）获取完整的处理流程与实验配置。

背景与挑战

背景概述

在时尚推荐与个性化穿搭领域中，将离散商品组合为协调的整套搭配是一项兼具美学与商业价值的关键任务。Apparel'23 kept outfit bundles (with products) 数据集由 DeepShopper 团队于2023年基于亚马逊公开商品数据构建，源自 Flavian V. 等人主导的研究工作，旨在解决从用户需求到角色标注商品组合的映射问题。该数据集是 DeepShopper 系统中亚马逊侧的核心黄金标准来源，其中包含的搭配组合被用于训练奖励模型 V0、生成奖励模型 V1 的正样本以及 Reducer 的软标签目标，为基于强化学习的穿搭推荐提供了可靠的监督信号，对推动智能穿搭系统的可扩展性研究具有重要影响。

当前挑战

该数据集的构建与应用面临多重挑战。在领域问题层面，时尚搭配推荐需要克服商品间风格一致性、穿着场景适配性以及用户个性化偏好的耦合难题，现有模型往往难以在保持搭配协调性的同时捕捉隐含的审美逻辑；构建过程中，由于亚马逊商品数据规模庞大、标签噪声显著，从海量非结构化描述中提取具有角色标签的搭配组合面临高昂的人工校验成本，同时确保搭配多样性以避免模型过拟合至常见组合也是关键瓶颈。此外，基于公开数据的衍生研究还需应对隐私合规与商业数据使用边界的问题。

常用场景

经典使用场景

在时尚推荐与智能穿搭研究领域，该数据集被广泛用于训练文本生成模型以完成服装搭配推荐任务。研究者通常将数据集中的“outfit bundles”视为黄金标注样本，利用其角色标记化的产品组合信息，训练模型学习从用户需求到完整穿搭方案的映射关系。经典的实验设定包括基于序列到序列的生成、条件文本生成以及检索增强式生成，旨在输出一致且符合时尚逻辑的搭配结果。该数据集为评估模型在结构化、多角色约束下的生成质量提供了标准化基准。

衍生相关工作

围绕该数据集，衍生出多项具有影响力的经典工作。首先，其作为DeepShopper框架中AMZ分支的金标准数据源，直接训练了奖励模型V0版本（`qwen4b-apparel23-bundle-sft`），并为奖励V1版本的正样本筛选与Reducer模型的软标签构建提供了种子数据。其次，数据集中角色化产品组合的结构化形式，催生了针对穿搭推荐的条件生成与强化学习优化研究（如repo `reco-rl`中的`outfit_bundle`分支）。这些工作推动了将结构化时尚知识融入生成式推荐系统的范式演进。

数据集最近研究