PinPoint Dataset
收藏github2026-03-08 更新2026-03-09 收录
下载链接:
https://github.com/pinterest/pinpoint-dataset
下载链接
链接失效反馈官方服务:
资源简介:
PinPoint数据集是一个用于评估组合图像检索的数据集,包含显式负面样本、多图像查询和改写测试。数据集包含7,635个查询、109,599张图像和329K个相关性判断。每个查询平均有9.1个正面答案,每个查询有6个指令改写,13.4%的查询使用多图像查询。数据集支持公平性评估,并包含人口统计元数据。
The PinPoint dataset is a benchmark for evaluating compositional image retrieval, featuring explicit negative samples, multi-image queries, and rewritten test cases. It comprises 7,635 queries, 109,599 images, and 329K relevance judgments. On average, each query has 9.1 positive matches, with 6 instruction rewrites per query, and 13.4% of the queries adopt multi-image query inputs. The dataset supports fairness evaluation and includes demographic metadata.
创建时间:
2026-02-10
原始信息汇总
PinPoint 数据集概述
数据集基本信息
- 数据集名称: PinPoint Dataset
- 关联论文: "PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing"
- 发布年份: 2026
- 数据格式: Parquet, JSON, TXT
数据集统计
| 统计项 | 数值 |
|---|---|
| 总查询数 | 7,635 |
| 语料库图像数 | 109,599 |
| 相关性标注数 | 329K |
| 查询类别数 | 23 |
| 每个查询的平均正例答案数 | 9.1 |
| 每个查询的指令复述数 | 6 |
| 多图像查询占比 | 13.4% |
核心特点
- 多个正确答案: 每个查询平均有约9个相关结果,不同于单答案基准。
- 显式困难负例: 每个查询包含模型容易与正例混淆的挑战性负例。
- 复述鲁棒性: 每个查询有6个指令变体,用于衡量语言敏感性(模型表现差异高达25%)。
- 多图像查询: 13.4%的查询使用两张参考图像进行复杂组合。
- 人口统计元数据: 支持跨人口统计群体的公平性评估。
数据集文件
| 文件 | 描述 |
|---|---|
pinpoint_licensed.parquet |
包含真实标注的查询语料库(7,635个查询) |
index_signatures.txt |
语料库图像签名(109,599张图像) |
image_attribution.json |
图像归属和许可信息 |
standardized_results/ |
基线方法的示例结果文件 |
数据模式 (pinpoint_licensed.parquet)
| 列名 | 类型 | 描述 |
|---|---|---|
query_id |
string | 唯一查询标识符 |
query_image_signature |
string | 参考图像签名 |
query_image_signature2 |
string | 可选的第二张参考图像签名 |
instruction |
string | 查询的文本指令 |
positive_candidates |
list | 真实相关图像列表 |
negative_candidates |
list | 困难负例图像列表 |
评估指标
| 指标 | 描述 |
|---|---|
| Precision@k | 前k个结果中相关结果的比例 |
| Recall@k | 在前k个结果中找到的相关项的比例 |
| mAP@k | 前k个结果的平均精度均值 |
| NegRecall@k | 在前k个结果中检索到困难负例的比例 |
| mAP@k_noNeg | 从结果中移除负例后的mAP@k |
| delta_mAP@k_noNeg | 移除负例后的改进程度 |
| ling_sens_range | 语言敏感性(跨复述的精度范围) |
| ling_sens_std | 语言敏感性(标准差) |
基线结果 (按 mAP@10 排序)
| 模型 | Precision@1 | Precision@10 | mAP@10 | NegRecall@10 | mAP@10 (no neg) |
|---|---|---|---|---|---|
| GPT-5 Text (reranked) | 0.298 | 0.203 | 0.184 | 0.061 | 0.189 |
| GPT-5 Text (premerge) | 0.288 | 0.197 | 0.179 | 0.089 | 0.190 |
| BGE-VL MLLM S1 (reranked) | 0.296 | 0.176 | 0.170 | 0.057 | 0.174 |
| GPT-5 Text (postmerge) | 0.264 | 0.178 | 0.158 | 0.093 | 0.168 |
| BGE-VL MLLM S1 | 0.233 | 0.142 | 0.131 | 0.087 | 0.141 |
| BGE-VL MLLM S2 | 0.193 | 0.141 | 0.121 | 0.122 | 0.141 |
| BGE-VL CLIP Large | 0.184 | 0.127 | 0.110 | 0.101 | 0.120 |
| MetaCLIP2 (combined) | 0.092 | 0.102 | 0.076 | 0.141 | 0.103 |
| MetaCLIP2 (text only) | 0.112 | 0.076 | 0.064 | 0.066 | 0.068 |
| MetaCLIP2 (image only) | 0.009 | 0.052 | 0.033 | 0.219 | 0.058 |
图像访问
图像托管在 Pinterest CDN。图像签名可通过以下模式转换为可访问的 URL:
https://i.pinimg.com/736x/{signature[:2]}/{signature[2:4]}/{signature[4:6]}/{signature}.jpg
许可信息
- 代码: Apache 2.0 许可证。
- 数据: CC BY 4.0 许可证。
- 图像: 单个图像的许可信息记录在
image_attribution.json中。数据集发布者不保证每张图像的许可状态,使用者需自行验证。
引用格式
bibtex @misc{mahadev2026pinpointevaluationcomposedimage, title={PinPoint: Evaluation of Composed Image Retrieval with Explicit Negatives, Multi-Image Queries, and Paraphrase Testing}, author={Rohan Mahadev and Joyce Yuan and Patrick Poirson and David Xue and Hao-Yu Wu and Dmitry Kislyuk}, year={2026}, eprint={2603.04598}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2603.04598}, }
搜集汇总
数据集介绍

构建方式
在计算机视觉与信息检索交叉领域,PinPoint数据集的构建体现了对组合图像检索任务评估的深度考量。该数据集通过精心设计的流程,从大规模图像库中筛选出十万余张图像构成检索库,并围绕七千余个查询构建了包含多重正确答案与显式困难负例的标注体系。每个查询均配备了六种不同表述的指令变体,以评估模型对语言变化的鲁棒性,同时部分查询引入了双参考图像以模拟复杂组合场景。数据集的构建还纳入了人口统计元数据,为公平性评估提供了基础。
特点
PinPoint数据集的核心特征在于其评估维度的全面性与挑战性。区别于传统单答案基准,该数据集平均每个查询包含约九个相关结果,更贴近真实检索场景的模糊性。其创新性地引入了显式困难负例,这些负例在视觉或语义上与正例高度相似,专门用于检验模型对细微差异的区分能力。数据集还通过指令复述测试量化模型的语言敏感性,部分模型在不同表述下性能波动高达25%。此外,13.4%的多图像查询支持对复杂组合推理能力的评估,而内嵌的人口统计信息则为算法公平性研究开辟了路径。
使用方法
使用PinPoint数据集进行评估遵循一套清晰的标准流程。研究者首先需要按照指定格式生成检索结果,即一个JSON文件,其中以查询ID为键,值为按相关性排序的图像签名列表。随后,通过运行提供的评估脚本,可计算包括精确率、召回率、平均精度均值在内的系列核心指标,其中NegRecall@k专门衡量模型误检困难负例的倾向,而ling_sens_range则反映模型对指令复述的敏感性。数据集提供了完整的MetaCLIP2基线实现作为参考,用户亦可集成自有模型,仅需确保输出格式兼容,即可利用统一评估框架进行性能对比与深入分析。
背景与挑战
背景概述
在计算机视觉与信息检索的交叉领域,组合图像检索任务旨在根据文本指令与参考图像的组合来搜索相关图像,对多模态模型的理解与生成能力提出了更高要求。PinPoint数据集由Rohan Mahadev等研究人员于2026年构建,并作为CVPR会议论文的核心贡献发布。该数据集围绕组合图像检索的评估瓶颈,系统性地引入了显式困难负样本、多图像查询及指令复述测试等维度,旨在推动模型在复杂真实场景下的鲁棒性与公平性发展。其包含超过7,600条查询与10万张候选图像,通过精细的标注框架为多模态检索研究提供了新的基准,显著提升了该领域评估的严谨性与深度。
当前挑战
PinPoint数据集致力于解决组合图像检索领域的关键挑战,即模型在区分视觉语义细微差异及理解复杂多模态指令时的局限性。具体而言,数据集的构建挑战体现在多个层面:在领域问题层面,模型需同时处理多图像查询的复合语义,并抵抗指令表述变异带来的性能波动,其困难负样本的设计直接针对模型常见的混淆模式;在构建过程中,确保大规模图像标注的准确性、平衡查询类别的多样性,以及整合人口统计元数据以支持公平性评估,均需克服数据采集、标注一致性与伦理审查等方面的复杂障碍。
常用场景
经典使用场景
在计算机视觉与信息检索交叉领域,PinPoint数据集为组合图像检索任务提供了精细化的评估基准。其经典使用场景集中于测试模型在复杂查询条件下的检索性能,例如当用户输入包含文本指令与参考图像的多模态查询时,模型需要准确理解并匹配图像库中的相关结果。该数据集通过引入多重正确答案、显式困难负样本以及多图像查询,模拟了真实世界中的检索复杂性,使研究者能够系统评估模型在细粒度语义对齐与上下文理解方面的能力。
衍生相关工作
围绕PinPoint数据集,已衍生出一系列聚焦于提升组合图像检索性能的经典研究工作。例如,基于其提供的显式负样本,研究者开发了专门的难负样本挖掘与对比学习策略,以增强模型的判别边界。针对指令复述测试所揭示的语言敏感性,后续工作探索了指令增强训练与多模态对齐微调方法。此外,数据集中多图像查询的特性催生了新型跨图像融合网络架构的研究,这些工作共同推动了多模态理解、鲁棒检索及公平性评估等子领域的算法创新与理论深化。
数据集最近研究
最新研究方向
在组合图像检索领域,PinPoint数据集凭借其独特的多正确答案、显式困难负样本及多图像查询设计,正推动研究向更精细的评估范式演进。前沿工作聚焦于提升模型对复杂指令的语义鲁棒性,通过引入指令改写测试来量化语言敏感性,揭示现有模型在跨表达变体间性能波动高达25%的挑战。同时,数据集中包含的显式困难负样本促使研究者开发更强大的判别机制,以降低模型在相似视觉概念间的混淆。多图像查询的引入进一步拓展了组合检索的边界,支持对跨图像语义融合能力的探索。这些特性共同助力于构建更公平、稳健的检索系统,为下一代视觉-语言模型在真实场景中的部署提供关键基准。
以上内容由遇见数据集搜集并总结生成



