PinPoint Dataset

github2026-03-08 更新2026-03-09 收录

下载链接：

https://github.com/pinterest/pinpoint-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

PinPoint数据集是一个用于评估组合图像检索的数据集，包含显式负面样本、多图像查询和改写测试。数据集包含7,635个查询、109,599张图像和329K个相关性判断。每个查询平均有9.1个正面答案，每个查询有6个指令改写，13.4%的查询使用多图像查询。数据集支持公平性评估，并包含人口统计元数据。

The PinPoint dataset is a benchmark for evaluating compositional image retrieval, featuring explicit negative samples, multi-image queries, and rewritten test cases. It comprises 7,635 queries, 109,599 images, and 329K relevance judgments. On average, each query has 9.1 positive matches, with 6 instruction rewrites per query, and 13.4% of the queries adopt multi-image query inputs. The dataset supports fairness evaluation and includes demographic metadata.

创建时间：

2026-02-10

原始信息汇总

PinPoint 数据集概述

数据集基本信息

数据集名称： PinPoint Dataset
关联论文： "PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing"
发布年份： 2026
数据格式： Parquet, JSON, TXT

数据集统计

统计项	数值
总查询数	7,635
语料库图像数	109,599
相关性标注数	329K
查询类别数	23
每个查询的平均正例答案数	9.1
每个查询的指令复述数	6
多图像查询占比	13.4%

核心特点

多个正确答案：每个查询平均有约9个相关结果，不同于单答案基准。
显式困难负例：每个查询包含模型容易与正例混淆的挑战性负例。
复述鲁棒性：每个查询有6个指令变体，用于衡量语言敏感性（模型表现差异高达25%）。
多图像查询： 13.4%的查询使用两张参考图像进行复杂组合。
人口统计元数据：支持跨人口统计群体的公平性评估。

数据集文件

文件	描述
`pinpoint_licensed.parquet`	包含真实标注的查询语料库（7,635个查询）
`index_signatures.txt`	语料库图像签名（109,599张图像）
`image_attribution.json`	图像归属和许可信息
`standardized_results/`	基线方法的示例结果文件

数据模式 (`pinpoint_licensed.parquet`)

列名	类型	描述
`query_id`	string	唯一查询标识符
`query_image_signature`	string	参考图像签名
`query_image_signature2`	string	可选的第二张参考图像签名
`instruction`	string	查询的文本指令
`positive_candidates`	list	真实相关图像列表
`negative_candidates`	list	困难负例图像列表

评估指标

指标	描述
Precision@k	前k个结果中相关结果的比例
Recall@k	在前k个结果中找到的相关项的比例
mAP@k	前k个结果的平均精度均值
NegRecall@k	在前k个结果中检索到困难负例的比例
mAP@k_noNeg	从结果中移除负例后的mAP@k
delta_mAP@k_noNeg	移除负例后的改进程度
ling_sens_range	语言敏感性（跨复述的精度范围）
ling_sens_std	语言敏感性（标准差）

基线结果 (按 mAP@10 排序)

模型	Precision@1	Precision@10	mAP@10	NegRecall@10	mAP@10 (no neg)
GPT-5 Text (reranked)	0.298	0.203	0.184	0.061	0.189
GPT-5 Text (premerge)	0.288	0.197	0.179	0.089	0.190
BGE-VL MLLM S1 (reranked)	0.296	0.176	0.170	0.057	0.174
GPT-5 Text (postmerge)	0.264	0.178	0.158	0.093	0.168
BGE-VL MLLM S1	0.233	0.142	0.131	0.087	0.141
BGE-VL MLLM S2	0.193	0.141	0.121	0.122	0.141
BGE-VL CLIP Large	0.184	0.127	0.110	0.101	0.120
MetaCLIP2 (combined)	0.092	0.102	0.076	0.141	0.103
MetaCLIP2 (text only)	0.112	0.076	0.064	0.066	0.068
MetaCLIP2 (image only)	0.009	0.052	0.033	0.219	0.058

图像访问

图像托管在 Pinterest CDN。图像签名可通过以下模式转换为可访问的 URL： https://i.pinimg.com/736x/{signature[:2]}/{signature[2:4]}/{signature[4:6]}/{signature}.jpg

许可信息

代码： Apache 2.0 许可证。
数据： CC BY 4.0 许可证。
图像：单个图像的许可信息记录在 image_attribution.json 中。数据集发布者不保证每张图像的许可状态，使用者需自行验证。

引用格式

bibtex @misc{mahadev2026pinpointevaluationcomposedimage, title={PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing}, author={Rohan Mahadev and Joyce Yuan and Patrick Poirson and David Xue and Hao-Yu Wu and Dmitry Kislyuk}, year={2026}, eprint={2603.04598}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2603.04598}, }

搜集汇总

数据集介绍

构建方式

在计算机视觉与信息检索交叉领域，PinPoint数据集的构建体现了对组合图像检索任务评估的深度考量。该数据集通过精心设计的流程，从大规模图像库中筛选出十万余张图像构成检索库，并围绕七千余个查询构建了包含多重正确答案与显式困难负例的标注体系。每个查询均配备了六种不同表述的指令变体，以评估模型对语言变化的鲁棒性，同时部分查询引入了双参考图像以模拟复杂组合场景。数据集的构建还纳入了人口统计元数据，为公平性评估提供了基础。

特点

PinPoint数据集的核心特征在于其评估维度的全面性与挑战性。区别于传统单答案基准，该数据集平均每个查询包含约九个相关结果，更贴近真实检索场景的模糊性。其创新性地引入了显式困难负例，这些负例在视觉或语义上与正例高度相似，专门用于检验模型对细微差异的区分能力。数据集还通过指令复述测试量化模型的语言敏感性，部分模型在不同表述下性能波动高达25%。此外，13.4%的多图像查询支持对复杂组合推理能力的评估，而内嵌的人口统计信息则为算法公平性研究开辟了路径。

使用方法

使用PinPoint数据集进行评估遵循一套清晰的标准流程。研究者首先需要按照指定格式生成检索结果，即一个JSON文件，其中以查询ID为键，值为按相关性排序的图像签名列表。随后，通过运行提供的评估脚本，可计算包括精确率、召回率、平均精度均值在内的系列核心指标，其中NegRecall@k专门衡量模型误检困难负例的倾向，而ling_sens_range则反映模型对指令复述的敏感性。数据集提供了完整的MetaCLIP2基线实现作为参考，用户亦可集成自有模型，仅需确保输出格式兼容，即可利用统一评估框架进行性能对比与深入分析。

背景与挑战

背景概述

在计算机视觉与信息检索的交叉领域，组合图像检索任务旨在根据文本指令与参考图像的组合来搜索相关图像，对多模态模型的理解与生成能力提出了更高要求。PinPoint数据集由Rohan Mahadev等研究人员于2026年构建，并作为CVPR会议论文的核心贡献发布。该数据集围绕组合图像检索的评估瓶颈，系统性地引入了显式困难负样本、多图像查询及指令复述测试等维度，旨在推动模型在复杂真实场景下的鲁棒性与公平性发展。其包含超过7,600条查询与10万张候选图像，通过精细的标注框架为多模态检索研究提供了新的基准，显著提升了该领域评估的严谨性与深度。

当前挑战

PinPoint数据集致力于解决组合图像检索领域的关键挑战，即模型在区分视觉语义细微差异及理解复杂多模态指令时的局限性。具体而言，数据集的构建挑战体现在多个层面：在领域问题层面，模型需同时处理多图像查询的复合语义，并抵抗指令表述变异带来的性能波动，其困难负样本的设计直接针对模型常见的混淆模式；在构建过程中，确保大规模图像标注的准确性、平衡查询类别的多样性，以及整合人口统计元数据以支持公平性评估，均需克服数据采集、标注一致性与伦理审查等方面的复杂障碍。

常用场景

经典使用场景

在计算机视觉与信息检索交叉领域，PinPoint数据集为组合图像检索任务提供了精细化的评估基准。其经典使用场景集中于测试模型在复杂查询条件下的检索性能，例如当用户输入包含文本指令与参考图像的多模态查询时，模型需要准确理解并匹配图像库中的相关结果。该数据集通过引入多重正确答案、显式困难负样本以及多图像查询，模拟了真实世界中的检索复杂性，使研究者能够系统评估模型在细粒度语义对齐与上下文理解方面的能力。

衍生相关工作

围绕PinPoint数据集，已衍生出一系列聚焦于提升组合图像检索性能的经典研究工作。例如，基于其提供的显式负样本，研究者开发了专门的难负样本挖掘与对比学习策略，以增强模型的判别边界。针对指令复述测试所揭示的语言敏感性，后续工作探索了指令增强训练与多模态对齐微调方法。此外，数据集中多图像查询的特性催生了新型跨图像融合网络架构的研究，这些工作共同推动了多模态理解、鲁棒检索及公平性评估等子领域的算法创新与理论深化。

数据集最近研究