LookBench

github2026-01-25 更新2026-01-26 收录

下载链接：

https://github.com/SerendipityOneInc/look-bench

下载链接

链接失效反馈

官方服务：

资源简介：

LookBench是一个实时、全面且具有挑战性的时尚图像检索基准，适用于真实电子商务环境。它提供了持续更新的样本、多样化的检索任务、基于属性的细粒度评估以及具有挑战性的基准。数据集包括多个子集，如RealStudioFlat、AIGen-Studio、RealStreetLook和AIGen-StreetLook，覆盖了不同的图像来源和难度级别。

LookBench is a real-time, comprehensive and challenging fashion image retrieval benchmark tailored for real-world e-commerce scenarios. It offers continuously updated samples, diverse retrieval tasks, attribute-based fine-grained evaluation, and challenging benchmark test suites. The dataset consists of multiple subsets including RealStudioFlat, AIGen-Studio, RealStreetLook, and AIGen-StreetLook, which cover various image sources and difficulty levels.

创建时间：

2026-01-20

原始信息汇总

LookBench 数据集概述

数据集基本信息

名称: LookBench
全称: Live and Holistic Open Benchmark for Fashion Image Retrieval
核心定位: 一个面向真实电商环境的、动态的、全面的时尚图像检索基准
发布日期: 2026年1月
论文地址: https://arxiv.org/abs/2601.14706
项目主页: https://serendipityoneinc.github.io/look-bench-page/
数据集托管地址: https://huggingface.co/datasets/srpone/look-bench
开源模型地址: https://huggingface.co/srpone/gr-lite
许可证: MIT License

数据集核心特点

动态更新: 提供带时间戳、定期更新的测试集，以减轻数据污染问题。
任务多样性: 涵盖单品检索和多品检索任务。
场景覆盖:
- 真实棚拍平铺图
- AI生成棚拍生活图
- 真实街拍穿搭图
- AI生成街拍穿搭图
细粒度评估: 基于超过100个时尚属性进行细粒度评估。
高挑战性: 许多强基线模型的Recall@1指标低于60%。

数据集子集详情

子集名称	图像来源	检索物品数量	难度	查询集/语料库数量
RealStudioFlat	真实棚拍平铺产品图	单品	简单	1,011 / 62,226
AIGen-Studio	AI生成的生活化棚拍图	单品	中等	192 / 59,254
RealStreetLook	真实街拍穿搭图	多品	困难	1,000 / 61,553
AIGen-StreetLook	AI生成的街拍穿搭图	多品	困难	160 / 58,846

数据获取与使用

安装方式:
- PyPI安装: pip install look-bench
- 源码安装: git clone https://github.com/SerendipityOneInc/look-bench.git
数据加载:
- 推荐使用内置工具: from look_bench.utils import load_lookbench_dataset
- 或直接使用Hugging Face datasets库: load_dataset("srpone/look-bench", "real_studio_flat")
数据结构: 每个子集包含query（查询集）和gallery（语料库）两个分割。

评估框架与指标

支持模型:
- CLIP (ViT, 224×224, 512维)
- SigLIP (ViT, 224×224, 768维)
- DINOv2 (ViT, 224×224, 768维)
- GR-Lite (ViT, 336×336, 1024维)
评估指标:
- Recall@K: Top-K检索准确率 (K=1, 5, 10, 20)
- MRR: 平均倒数排名
- NDCG@K: 归一化折损累计增益
- MAP: 平均准确率均值
评估粒度:
- Fine Recall@1: 要求类别和所有属性完全匹配
- Coarse Recall@1: 仅要求类别匹配
- nDCG@K: 基于属性重叠度的分级相关性评估

基准性能结果（Fine Recall@1）

模型	分辨率/嵌入维度	AIGen-StreetLook	AIGen-Studio	RealStreetLook	RealStudioFlat	总体
GR-Pro (论文中)	336 / 1024	63.67	54.88	44.75	51.55	49.80
GR-Lite (开源)	336 / 1024	62.47	52.08	43.84	51.70	49.18
Marqo-FashionSigLIP	224 / 768	66.27	58.53	42.43	51.86	49.44
CLIP-B/16	224 / 512	17.86	13.75	16.80	34.75	24.36

扩展与定制

自定义模型集成: 支持通过注册模式集成用户自定义模型。
自定义评估流程: 支持创建自定义的评估流水线。
配置驱动: 通过configs/config.yaml文件配置模型和评估设置。

相关资源

示例代码: 提供Python脚本和Google Colab笔记本。
架构: 包含配置管理、模型管理、数据加载、评估流水线和度量计算等模块。
引用: bibtex @article{gao2026lookbench, title={LookBench: A Live and Holistic Open Benchmark for Fashion Image Retrieval}, author={Chao Gao and Siqiao Xue and Yimin Peng and Jiwen Fu and Tingyi Gu and Shanshan Li and Fan Zhou}, year={2026}, url={https://arxiv.org/abs/2601.14706}, journal={arXiv preprint arXiv:2601.14706}, }

搜集汇总

数据集介绍

构建方式

LookBench数据集的构建体现了对时尚图像检索领域现有基准局限性的深刻反思。该数据集通过整合真实工作室平铺产品照片、人工智能生成的生活化工作室图像、真实街头穿搭照片以及人工智能生成的街头穿搭组合，构建了涵盖单物品与多物品检索任务的四个核心子集。每个子集均配备了时间戳标记，并采用周期性更新机制，有效缓解了数据污染问题。数据采集过程注重场景多样性与任务复杂性，形成了包含超过十万张图像的庞大语料库，为评估模型在真实电商环境下的检索能力提供了坚实的数据基础。

特点

LookBench数据集展现出多维度创新特性，其核心在于构建了一个动态演进的评估基准。数据集采用持续更新的测试样本，确保评估环境与快速变化的时尚趋势保持同步。任务设计覆盖了从简单单物品检索到复杂多物品检索的全谱系难度，并引入基于百余种时尚属性的细粒度评估体系，实现了对模型性能的精准度量。该基准的挑战性尤为突出，多数先进模型的Recall@1指标均低于60%，这为驱动时尚检索技术向更高精度迈进提供了明确的性能标尺。

使用方法

研究人员可通过Hugging Face平台便捷加载LookBench数据集，利用其官方Python库进行模型评估与比较。该框架支持CLIP、SigLIP、DINOv2及GR-Lite等多种预训练视觉模型的集成，并提供了完整的评估流水线，涵盖特征提取、相似度计算及多指标评估等环节。用户可通过配置文件灵活调整模型参数与评估设置，亦能遵循注册模式轻松集成自定义模型。配套的示例脚本与Colab笔记本进一步降低了使用门槛，使得从数据探索到完整性能评估的全流程变得高效而直观。

背景与挑战

背景概述

在时尚图像检索领域，现有基准数据集往往受限于静态样本与单一场景，难以全面评估模型在动态电商环境中的实际性能。LookBench数据集由SerendipityOneInc团队于2026年1月正式发布，其核心研究目标在于构建一个动态更新、场景多元且评估精细的开放式基准。该数据集通过整合真实摄影与人工智能生成图像，覆盖了单品平铺、多品街拍等多种检索任务，并引入基于百余种时尚属性的细粒度评估体系，旨在推动检索模型在复杂真实场景中的泛化能力与鲁棒性发展，为学术界与工业界提供了更为严谨的评估工具。

当前挑战

LookBench致力于解决时尚图像检索中模型泛化性不足与评估标准粗粒度的问题。具体挑战体现在模型需同时应对真实摄影与AI生成图像的跨域语义对齐，以及在多物品、复杂背景的街拍场景中实现精准的属性级匹配。数据构建过程中，团队面临样本动态更新的持续性维护难题，需确保时间戳机制有效防止数据污染；同时，为涵盖四大子集并标注超百项属性，需克服大规模图像采集、跨源数据质量对齐以及细粒度标注一致性的工程挑战，这些因素共同构成了该基准在实用性与学术严谨性上的双重考验。

常用场景

经典使用场景

在时尚图像检索领域，LookBench数据集为评估模型在真实电商环境下的性能提供了经典场景。该数据集通过涵盖单品与多品检索任务，并融合真实摄影棚平铺、AI生成摄影棚、真实街拍造型及AI生成街拍造型四种场景，构建了一个全面且具有挑战性的测试平台。研究者利用其时间戳标注和定期更新的特性，能够有效避免数据污染问题，从而在动态变化的时尚数据流中持续验证模型的鲁棒性与泛化能力。

衍生相关工作

围绕LookBench数据集，已衍生出一系列具有影响力的研究工作。其官方发布的GR-Lite模型，作为基于该基准优化的轻量级视觉Transformer，在多项子任务上取得了领先性能，为社区提供了强大的开源基线。同时，数据集支持CLIP、SigLIP、DINOv2等多种主流视觉-语言模型的集成与评估框架，促进了跨模型架构的比较研究与性能分析。这些工作共同推动了时尚检索领域在模型设计、评估协议与基准构建方面的持续进步。

数据集最近研究