PhotoBench

Hugging Face2026-04-23 更新2026-04-24 收录

下载链接：

https://huggingface.co/datasets/SorrowTea/PhotoBench

下载链接

链接失效反馈

官方服务：

资源简介：

PhotoBench 是一个基于真实个人相册构建的图像检索基准数据集，旨在从视觉匹配转向个性化多源意图驱动的照片检索。该数据集包含开放式的自然语言查询，支持使用自定义的嵌入模型、标题生成器或基于代理的检索工作流。数据集主要包括：1) 三个相册的测试查询（中英文双语）；2) 所有三个相册的原始图像（需单独获取）。具体数据规模为：相册1约1,070张图像和100个测试查询，相册2约1,470张图像和100个测试查询，相册3约1,050张图像和100个测试查询，每个查询平均有约4.5个真实匹配。测试查询以JSON格式提供，包含中英文查询文本字段。原始图像为JPEG格式，保持相机原始文件名。该数据集适用于文本到图像检索任务，支持使用各种视觉编码器和视觉语言模型进行评估和创新。数据集采用MIT许可证发布。

创建时间：

2026-04-23

原始信息汇总

PhotoBench 数据集概述

基本信息

数据集名称：PhotoBench
任务类型：文本到图像检索（Text-to-Image Retrieval）
许可协议：MIT License
语言：中文、英文
数据集规模：小于 1,000 条记录
相关标签：image-retrieval, benchmark, photobench, vision-language

数据集简介

PhotoBench 是首个基于真实个人相册构建的基准测试，旨在将视觉匹配范式转向个性化、多源意图驱动的照片检索。该数据集提供对原始图像的完全访问权限，允许用户使用自定义的嵌入模型、标题生成器或基于代理的检索工作流。

数据集规模

数据集包含 3 个相册，每个相册的详细信息如下：

相册	图像数量	测试查询数	每个查询的平均真实标注数
1	~1,070	100	~4.5
2	~1,470	100	~4.5
3	~1,050	100	~4.5

数据格式

测试查询文件

每个查询文件以 JSON 数组格式存储，包含以下字段：

字段名	类型	描述
query_cn	string	中文查询文本
query_en	string	英文查询文本（主要语言）

示例： json [ { "query_cn": "摆满的书桌", "query_en": "cluttered desk" }, { "query_cn": "紫毛衣女孩", "query_en": "girl in purple sweater" } ]

原始图像

总大小：约 11 GB
格式：JPEG
命名方式：原始相机文件名（如 IMG_1234.JPG）
存放位置：由于大小限制，原始图像不直接托管在该仓库中，需联系作者获取或按照说明下载

评估指标

排行榜计算的指标如下：

指标	描述	支持的 k 值
Recall@k	前 k 个结果中真实图像的比例	1, 5, 10, 20, 50, 100
NDCG@k	前 k 个位置的归一化折损累积增益	1, 5, 10, 20, 50, 100

最终得分按相册平均，然后跨相册取平均值。只有提交全部 3 个相册、全部查询的结果才能参与公开排行榜排名。

使用方式

下载测试查询：通过 huggingface_hub CLI 或直接从仓库的 Files 标签页下载 albumN_test.json 文件。
下载原始图像：联系作者获取访问权限，或按照相册结构准备图像：

raw_albums/ ├── album1/ ├── album2/ └── album3/
构建检索系统：使用原始图像和测试查询，可进行图像嵌入提取、标题生成、多步代理工作流设计等。
提交至排行榜：准备预测结果并上传至 PhotoBench 排行榜。

引用

bibtex @misc{photobench2026, title={PhotoBench}, year={2026}, eprint={2603.01493}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

PhotoBench是首个基于真实个人相册构建的图像检索基准数据集，旨在将视觉匹配范式转向个性化、多源意图驱动的照片检索。该数据集从三个不同的个人相册中收集了约3,590张原始照片（JPEG格式，总大小约11 GB），并为每个相册精心设计了100条开放式的自然语言查询（共300条），涵盖中文和英文两种语言。每条查询平均对应约4.5张真实标注的图像。查询文件和原始图像文件分离存储，原始图像因体积较大需单独申请获取，而查询JSON文件可直接从HuggingFace仓库下载。

特点

PhotoBench的最大特点在于其数据来源于真实的个人摄影相册，而非经过筛选或合成的互联网图片，这使得检索任务更贴近现实场景中的复杂需求。查询语句为开放式自然语言，摒弃了传统基于标签匹配的简化方式，能够模拟用户真实意图的多样性与模糊性。此外，数据集支持英文和中文双语查询，便于评估多语言环境下的检索性能。开放式的原始图像访问权限允许研究者自由选择视觉编码器、描述生成器或多步骤智能体工作流，极大拓展了评估框架的灵活性与鲁棒性。

使用方法

使用PhotoBench进行模型评估时，研究者首先需通过HuggingFace CLI下载查询JSON文件，并联系作者获取原始图像，按照album1、album2、album3的目录结构存放。随后可利用任意视觉编码器（如CLIP、SigLIP）提取图像嵌入，或借助视觉语言模型（如GPT-4V、Qwen-VL）生成描述，设计定制化的检索系统。预测结果需以JSON格式提交，每条记录包含相册ID、英文查询及按得分排序的预测图像文件名列表。Leaderboard采用Recall@k和NDCG@k指标进行评估，支持k=1/5/10/20/50/100，最终得分取所有相册所有查询的平均值。

背景与挑战

背景概述

随着多模态大语言模型的迅猛发展，从个人海量相册中精准检索特定照片成为视觉语言交叉领域的前沿课题。然而，现有图像检索基准大多局限于受控环境下的视觉匹配任务，难以模拟真实用户在开放场景中基于模糊、多源意图的检索需求。PhotoBench数据集应运而生，由研究团队于2026年发布，构建自真实个人相册，包含三个独立相册共约3600张原始图像及300条中英双语自然语言查询。该基准旨在将检索范式从纯视觉匹配转向个性化、多源意图驱动的照片检索，其核心研究问题是如何在未经过滤的真实照片库中，通过语言理解、视觉感知与用户偏好的协同作用，实现高召回率的精准定位。PhotoBench的提出填补了真实个性化图像检索基准的空白，为评估多模态检索系统在非理想条件下的泛化能力提供了关键标尺。

当前挑战

PhotoBench数据集直面双重挑战。在领域问题上，传统图像检索基准如ImageNet或COCO侧重类别级匹配，而PhotoBench要求系统理解复杂自然语言查询（如“紫毛衣女孩”）中的语义歧义与隐性上下文，同时应对个人相册中光线差异、物体遮挡、视角变化等真实噪声。构建过程中，挑战更为艰巨：首先，保护用户隐私的前提下需确保查询标注的准确性与多样性，团队通过人工标注为每张图片生成多对一查询-图像关联，平均每查询对应4.5个正确结果；其次，原始图片因体积庞大无法直接托管，需设计分散存储与访问协议；此外，为模拟跨语言查询场景，所有查询均需完成精准的中英文语义对齐。这些挑战促使PhotoBench成为评估多模态检索系统鲁棒性与实用性的权威试金石。

常用场景

经典使用场景

PhotoBench作为首个源自真实个人相册的图像检索基准，打破了传统视觉匹配的局限，将研究范式转向个性化、多源意图驱动的照片检索。该数据集包含三个相册共约3600张原始照片，并配有中英文自然语言查询，每个相册提供100个开放式查询及平均约4.5个真实标签。经典使用场景即利用视觉编码器（如CLIP、SigLIP）提取图像嵌入，结合大语言模型生成图像描述，甚至设计多步骤智能体工作流，实现从模糊自然语言描述到精准照片的跨模态检索。这一过程不仅考验模型对视觉语义的理解，更强调对用户个性化意图的捕捉，为图像检索领域树立了新的评价标杆。

解决学术问题

PhotoBench着力解决传统图像检索基准脱离真实用户场景的核心痛点，即现有数据集多依赖互联网图片或人工合成查询，难以反映个人相册中意图模糊、语义复杂的检索需求。学术上，该数据集首次系统性地将用户个性化语境（如“摆满的书桌”“紫毛衣女孩”）引入评估框架，推动研究从视觉匹配向意图理解转型。其意义在于揭示并量化多模态模型在面对真实、多源查询时的性能差异，尤其在跨语言检索（中英文）和长尾内容召回方面，为领域提供了可靠的实验平台。这一基准的建立，激励学界重新审视检索系统的评价维度，促进了更具实用性的解决方案的涌现。

衍生相关工作

PhotoBench衍生出一系列相关经典工作，首先催生了基于大模型视觉语言能力的图像检索研究，例如利用GPT-4V等模型生成描述性中间表征，再与嵌入检索结合的多阶段方案。其次，它推动了跨语言检索的进步，激励研究者探索如何统一中文和英文查询的语义空间，从而涌现出多语言对齐的视觉编码模型。此外，该数据集被用于评测和比较不同的检索范式，如对比学习与负样本挖掘技术的优劣，并衍生出以智能体为中心的检索工作流（Agent-based Retrieval）。这些工作不仅扩展了原始基准的边界，还反向推动了PhotoBench自身版本的迭代，如受保护数据集的发布，以支持隐私敏感型和用户验证的评估。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集