LookBench
收藏github2026-01-25 更新2026-01-26 收录
下载链接:
https://github.com/SerendipityOneInc/look-bench
下载链接
链接失效反馈官方服务:
资源简介:
LookBench是一个实时、全面且具有挑战性的时尚图像检索基准,适用于真实电子商务环境。它提供了持续更新的样本、多样化的检索任务、基于属性的细粒度评估以及具有挑战性的基准。数据集包括多个子集,如RealStudioFlat、AIGen-Studio、RealStreetLook和AIGen-StreetLook,覆盖了不同的图像来源和难度级别。
LookBench is a real-time, comprehensive and challenging fashion image retrieval benchmark tailored for real-world e-commerce scenarios. It offers continuously updated samples, diverse retrieval tasks, attribute-based fine-grained evaluation, and challenging benchmark test suites. The dataset consists of multiple subsets including RealStudioFlat, AIGen-Studio, RealStreetLook, and AIGen-StreetLook, which cover various image sources and difficulty levels.
创建时间:
2026-01-20
原始信息汇总
LookBench 数据集概述
数据集基本信息
- 名称: LookBench
- 全称: Live and Holistic Open Benchmark for Fashion Image Retrieval
- 核心定位: 一个面向真实电商环境的、动态的、全面的时尚图像检索基准
- 发布日期: 2026年1月
- 论文地址: https://arxiv.org/abs/2601.14706
- 项目主页: https://serendipityoneinc.github.io/look-bench-page/
- 数据集托管地址: https://huggingface.co/datasets/srpone/look-bench
- 开源模型地址: https://huggingface.co/srpone/gr-lite
- 许可证: MIT License
数据集核心特点
- 动态更新: 提供带时间戳、定期更新的测试集,以减轻数据污染问题。
- 任务多样性: 涵盖单品检索和多品检索任务。
- 场景覆盖:
- 真实棚拍平铺图
- AI生成棚拍生活图
- 真实街拍穿搭图
- AI生成街拍穿搭图
- 细粒度评估: 基于超过100个时尚属性进行细粒度评估。
- 高挑战性: 许多强基线模型的Recall@1指标低于60%。
数据集子集详情
| 子集名称 | 图像来源 | 检索物品数量 | 难度 | 查询集/语料库数量 |
|---|---|---|---|---|
| RealStudioFlat | 真实棚拍平铺产品图 | 单品 | 简单 | 1,011 / 62,226 |
| AIGen-Studio | AI生成的生活化棚拍图 | 单品 | 中等 | 192 / 59,254 |
| RealStreetLook | 真实街拍穿搭图 | 多品 | 困难 | 1,000 / 61,553 |
| AIGen-StreetLook | AI生成的街拍穿搭图 | 多品 | 困难 | 160 / 58,846 |
数据获取与使用
- 安装方式:
- PyPI安装:
pip install look-bench - 源码安装:
git clone https://github.com/SerendipityOneInc/look-bench.git
- PyPI安装:
- 数据加载:
- 推荐使用内置工具:
from look_bench.utils import load_lookbench_dataset - 或直接使用Hugging Face
datasets库:load_dataset("srpone/look-bench", "real_studio_flat")
- 推荐使用内置工具:
- 数据结构: 每个子集包含
query(查询集)和gallery(语料库)两个分割。
评估框架与指标
- 支持模型:
- CLIP (ViT, 224×224, 512维)
- SigLIP (ViT, 224×224, 768维)
- DINOv2 (ViT, 224×224, 768维)
- GR-Lite (ViT, 336×336, 1024维)
- 评估指标:
- Recall@K: Top-K检索准确率 (K=1, 5, 10, 20)
- MRR: 平均倒数排名
- NDCG@K: 归一化折损累计增益
- MAP: 平均准确率均值
- 评估粒度:
- Fine Recall@1: 要求类别和所有属性完全匹配
- Coarse Recall@1: 仅要求类别匹配
- nDCG@K: 基于属性重叠度的分级相关性评估
基准性能结果(Fine Recall@1)
| 模型 | 分辨率/嵌入维度 | AIGen-StreetLook | AIGen-Studio | RealStreetLook | RealStudioFlat | 总体 |
|---|---|---|---|---|---|---|
| GR-Pro (论文中) | 336 / 1024 | 63.67 | 54.88 | 44.75 | 51.55 | 49.80 |
| GR-Lite (开源) | 336 / 1024 | 62.47 | 52.08 | 43.84 | 51.70 | 49.18 |
| Marqo-FashionSigLIP | 224 / 768 | 66.27 | 58.53 | 42.43 | 51.86 | 49.44 |
| CLIP-B/16 | 224 / 512 | 17.86 | 13.75 | 16.80 | 34.75 | 24.36 |
扩展与定制
- 自定义模型集成: 支持通过注册模式集成用户自定义模型。
- 自定义评估流程: 支持创建自定义的评估流水线。
- 配置驱动: 通过
configs/config.yaml文件配置模型和评估设置。
相关资源
- 示例代码: 提供Python脚本和Google Colab笔记本。
- 架构: 包含配置管理、模型管理、数据加载、评估流水线和度量计算等模块。
- 引用: bibtex @article{gao2026lookbench, title={LookBench: A Live and Holistic Open Benchmark for Fashion Image Retrieval}, author={Chao Gao and Siqiao Xue and Yimin Peng and Jiwen Fu and Tingyi Gu and Shanshan Li and Fan Zhou}, year={2026}, url={https://arxiv.org/abs/2601.14706}, journal={arXiv preprint arXiv:2601.14706}, }
搜集汇总
数据集介绍

构建方式
LookBench数据集的构建体现了对时尚图像检索领域现有基准局限性的深刻反思。该数据集通过整合真实工作室平铺产品照片、人工智能生成的生活化工作室图像、真实街头穿搭照片以及人工智能生成的街头穿搭组合,构建了涵盖单物品与多物品检索任务的四个核心子集。每个子集均配备了时间戳标记,并采用周期性更新机制,有效缓解了数据污染问题。数据采集过程注重场景多样性与任务复杂性,形成了包含超过十万张图像的庞大语料库,为评估模型在真实电商环境下的检索能力提供了坚实的数据基础。
特点
LookBench数据集展现出多维度创新特性,其核心在于构建了一个动态演进的评估基准。数据集采用持续更新的测试样本,确保评估环境与快速变化的时尚趋势保持同步。任务设计覆盖了从简单单物品检索到复杂多物品检索的全谱系难度,并引入基于百余种时尚属性的细粒度评估体系,实现了对模型性能的精准度量。该基准的挑战性尤为突出,多数先进模型的Recall@1指标均低于60%,这为驱动时尚检索技术向更高精度迈进提供了明确的性能标尺。
使用方法
研究人员可通过Hugging Face平台便捷加载LookBench数据集,利用其官方Python库进行模型评估与比较。该框架支持CLIP、SigLIP、DINOv2及GR-Lite等多种预训练视觉模型的集成,并提供了完整的评估流水线,涵盖特征提取、相似度计算及多指标评估等环节。用户可通过配置文件灵活调整模型参数与评估设置,亦能遵循注册模式轻松集成自定义模型。配套的示例脚本与Colab笔记本进一步降低了使用门槛,使得从数据探索到完整性能评估的全流程变得高效而直观。
背景与挑战
背景概述
在时尚图像检索领域,现有基准数据集往往受限于静态样本与单一场景,难以全面评估模型在动态电商环境中的实际性能。LookBench数据集由SerendipityOneInc团队于2026年1月正式发布,其核心研究目标在于构建一个动态更新、场景多元且评估精细的开放式基准。该数据集通过整合真实摄影与人工智能生成图像,覆盖了单品平铺、多品街拍等多种检索任务,并引入基于百余种时尚属性的细粒度评估体系,旨在推动检索模型在复杂真实场景中的泛化能力与鲁棒性发展,为学术界与工业界提供了更为严谨的评估工具。
当前挑战
LookBench致力于解决时尚图像检索中模型泛化性不足与评估标准粗粒度的问题。具体挑战体现在模型需同时应对真实摄影与AI生成图像的跨域语义对齐,以及在多物品、复杂背景的街拍场景中实现精准的属性级匹配。数据构建过程中,团队面临样本动态更新的持续性维护难题,需确保时间戳机制有效防止数据污染;同时,为涵盖四大子集并标注超百项属性,需克服大规模图像采集、跨源数据质量对齐以及细粒度标注一致性的工程挑战,这些因素共同构成了该基准在实用性与学术严谨性上的双重考验。
常用场景
经典使用场景
在时尚图像检索领域,LookBench数据集为评估模型在真实电商环境下的性能提供了经典场景。该数据集通过涵盖单品与多品检索任务,并融合真实摄影棚平铺、AI生成摄影棚、真实街拍造型及AI生成街拍造型四种场景,构建了一个全面且具有挑战性的测试平台。研究者利用其时间戳标注和定期更新的特性,能够有效避免数据污染问题,从而在动态变化的时尚数据流中持续验证模型的鲁棒性与泛化能力。
衍生相关工作
围绕LookBench数据集,已衍生出一系列具有影响力的研究工作。其官方发布的GR-Lite模型,作为基于该基准优化的轻量级视觉Transformer,在多项子任务上取得了领先性能,为社区提供了强大的开源基线。同时,数据集支持CLIP、SigLIP、DINOv2等多种主流视觉-语言模型的集成与评估框架,促进了跨模型架构的比较研究与性能分析。这些工作共同推动了时尚检索领域在模型设计、评估协议与基准构建方面的持续进步。
数据集最近研究
最新研究方向
在时尚图像检索领域,LookBench数据集的推出标志着研究范式向动态、多场景与细粒度评估的深刻转变。该数据集通过引入时间戳机制与周期性更新的测试集,有效应对了数据污染问题,为模型在真实电商环境中的持续学习与泛化能力评估提供了坚实基础。其前沿研究聚焦于跨模态检索在AI生成内容与真实场景下的性能对齐,尤其是在多物品街拍检索这一高难度任务上,探索视觉模型对复杂时尚属性的理解与匹配。伴随GR-Lite等开源模型的发布,研究热点进一步延伸到轻量化架构设计与领域自适应方法,旨在提升模型在多样化图像源(如AI生成工作室图与真实街拍)中的检索鲁棒性与精确性。这些进展不仅推动了时尚检索技术向实用化迈进,也为跨领域视觉理解任务提供了重要的基准参考。
以上内容由遇见数据集搜集并总结生成



