C-Fashion; MIT-States*

Name: C-Fashion; MIT-States*
Creator: 北京交通大学·计算机科学与技术学院
Published: 2026-02-26 23:27:17
License: 暂无描述

arXiv2026-02-26 更新2026-02-28 收录

下载链接：

https://github.com/xud-yan/WARM-CAT

下载链接

链接失效反馈

官方服务：

资源简介：

C-Fashion是一个专为时尚领域组合推理构建的新基准数据集，填补了该领域在组合零样本学习任务中的空白。MIT-States*是对原始MIT-States数据集的清理和优化版本，解决了约70%标签错误的问题，提供了更可靠的评估基准。这两个数据集旨在支持组合零样本学习的研究，特别是在处理标签空间分布变化和长尾分布场景下的模型性能评估。

C-Fashion is a novel benchmark dataset constructed specifically for compositional reasoning in the fashion domain, filling the gap in compositional zero-shot learning tasks within this field. MIT-States* is a cleaned and optimized version of the original MIT-States dataset, which resolves approximately 70% of label errors and provides a more reliable evaluation benchmark. These two datasets are designed to support research on compositional zero-shot learning, particularly for evaluating model performance in scenarios involving label space distribution shifts and long-tailed distributions.

提供机构：

北京交通大学·计算机科学与技术学院

创建时间：

2026-02-26

原始信息汇总

WARM-CAT 数据集概述

数据集简介

WARM-CAT 是一个面向组合零样本学习（Compositional Zero-Shot Learning）的研究项目，其核心是提出了一种名为“Warm-Started Test-Time Comprehensive Knowledge Accumulation”的方法。该项目发布了两个配套数据集。

发布数据集

项目包含以下两个公开发布的数据集：

C-Fashion 数据集
- 访问地址：https://huggingface.co/datasets/BJTUYXD/C-Fashion
MIT-States 数据集*
- 访问地址：https://huggingface.co/datasets/BJTUYXD/MIT-States_star

项目状态

该项目目前正在组织相关代码。

搜集汇总

数据集介绍

构建方式

在时尚领域，组合推理对于理解服装类别与细粒度视觉属性（如颜色、材质、图案）的复合关系至关重要。C-Fashion数据集基于FashionIQ构建，通过多模态大语言模型（MLLM）对图像进行初步标注，随后执行多轮清洗与过滤：移除包含乱码或无关字符的图像，标准化标签格式，剔除图像数量过少的稀疏类别，过滤与标注相似度低的样本，并对图像过多的组合进行随机下采样。数据划分遵循组合零样本学习的标准协议，确保训练集覆盖所有基元（属性和对象），并将组合按比例分为可见与不可见集合，验证集与测试集均包含可见与不可见组合，以公平评估模型对新组合的泛化能力。

特点

C-Fashion作为首个专注于时尚领域的组合零样本学习基准数据集，其突出特点在于覆盖广泛的服装类别与视觉属性，包含76种对象和28种属性，构成2128种潜在组合。数据集规模适中，包含约3万张图像，在保持多样性的同时确保了标注质量。此外，该数据集经过系统清洗，显著降低了标签噪声，为模型评估提供了可靠基础。其数据划分经过精心设计，训练集包含350个可见组合，验证集与测试集分别包含约60个可见和60个不可见组合，这种结构既保证了训练时基元的完整性，又有效测试了模型对新颖组合的识别能力。

使用方法

该数据集主要用于组合零样本学习任务的评估，支持闭世界和开世界两种设置。在闭世界设置中，测试组合空间限定为训练中可见组合与特定不可见组合的并集；而在开世界设置中，测试空间扩展为所有可能的属性-对象组合。研究人员通常在该数据集上训练模型，使其从可见组合中学习属性和对象的表示，进而评估模型对不可见组合的识别能力。评估指标包括曲线下面积、调和平均数以及可见和不可见组合的单独准确率，这些指标共同反映了模型在组合泛化上的综合性能。数据集的结构化划分也为研究长尾分布下的组合识别提供了便利，支持对模型在头部、躯干和尾部组合上性能的细致分析。

背景与挑战

背景概述

C-Fashion与MIT-States*数据集是面向组合零样本学习领域的重要基准。C-Fashion由北京交通大学的研究团队于2025年提出，旨在填补时尚领域缺乏专用组合推理数据集的空白，其构建基于FashionIQ数据集，通过多模态大模型标注与严格过滤流程完成。MIT-States*则是对早期广泛使用但标注噪声严重的MIT-States数据集的系统性清洗与精炼版本，约70%的错误标签得以修正。这两个数据集的核心研究问题是支持属性与对象的组合式泛化，即模型在训练阶段仅接触部分属性-对象组合，而在测试阶段需识别从未见过的新组合。它们为评估模型在封闭世界和开放世界设定下的组合推理能力提供了更可靠、更全面的基准，显著推动了组合零样本学习在细粒度视觉识别与跨模态理解方向的发展。

当前挑战

C-Fashion与MIT-States*数据集所应对的核心领域挑战是组合零样本学习中的标签空间分布偏移问题。由于测试时引入了由已知属性和对象重组而成的未见组合，模型面临的标签分布与训练时所学分布发生显著错配，导致预测置信度下降与泛化性能劣化。在数据集构建过程中，研究者遭遇了多重挑战：对于C-Fashion，需从原始图像中生成高质量的组合标注，其过程涉及利用多模态大模型进行初始标注，并设计多级过滤策略以消除标注噪声、标准化格式、剔除稀疏类别及低相似度样本，同时确保训练集覆盖所有基本属性与对象以实现全面的语义覆盖。对于MIT-States*，主要挑战在于对原始数据集中大量错误标签进行识别与修正，需通过系统性的清洗协议重建可靠的数据划分，在减少噪声的同时保持数据集的规模与多样性，以提供公平且稳健的评估环境。

常用场景

经典使用场景

在组合零样本学习领域，C-Fashion与MIT-States*数据集为评估模型识别未见属性-对象组合的能力提供了关键基准。C-Fashion聚焦于时尚领域，其图像涵盖了丰富的服装类别与细粒度视觉属性（如颜色、材质、图案）的组合，精准模拟了现实世界中新颖风格不断涌现的场景。该数据集常被用于测试模型能否基于已见的服装与属性知识，推理出如“格子衬衫”或“刺绣连衣裙”等未见组合。而经过去噪精炼的MIT-States*则提供了更广泛、更真实的日常物体与状态组合，用于评估模型在复杂开放环境下的组合泛化能力。这两个数据集共同支撑了模型在封闭世界与开放世界设定下的系统性评测。

实际应用

C-Fashion数据集在电子商务与个性化推荐系统中具有直接的应用价值。在线购物平台需要准确理解用户对“蓝色丝质连衣裙”或“复古格纹西装”等复杂组合的查询，并检索或推荐相应商品。该数据集训练的模型能够解析服装图像中的属性与对象组合，提升视觉搜索的精度与用户体验。MIT-States*则适用于更广泛的场景理解，例如智能家居系统需要识别“装满的玻璃杯”或“熄灭的台灯”等状态，机器人需在动态环境中理解“打开的抽屉”或“破损的盒子”。这些应用均依赖于模型对基本概念进行组合推理的能力。

衍生相关工作

围绕C-Fashion与MIT-States*数据集，衍生了一系列推动组合零样本学习发展的经典工作。基于CLIP等视觉语言模型的方法，如CoOp、CSP通过提示学习调整文本编码器。Troika采用多路径提示架构与跨模态牵引模块联合建模原始概念与组合。针对测试时分布偏移，TOMCAT首次引入测试时多模态知识积累框架。而WARM-CAT进一步优化，通过优先级队列暖启动与自适应更新权重，更有效地利用测试数据。在数据集层面，ClusPro探索了基于聚类的原型学习，IMAX则在复数空间中进行嵌入以捕获属性与对象的依赖关系。这些工作共同构成了该领域不断演进的技术图谱。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集