DISBench

github2026-03-05 更新2026-03-06 收录

下载链接：

https://github.com/RUC-NLPIR/DeepImageSearch

下载链接

链接失效反馈

官方服务：

资源简介：

DISBench是第一个为图像检索任务设计的基准测试，要求代理在用户的照片集合和自然语言查询下，自主规划搜索轨迹，发现潜在的跨图像关联，并通过多步探索链式分散的视觉证据，返回符合条件的图像集合。基准测试涵盖两种推理模式：Intra-Event查询和Inter-Event查询。

DISBench is the first benchmark specifically designed for the image retrieval task. Given the user's photo collection and natural language queries, it requires agents to autonomously plan search trajectories, identify potential cross-image associations, and return qualifying image sets by exploring scattered visual evidence via chained multi-step exploration. The benchmark covers two reasoning modes: Intra-Event query and Inter-Event query.

创建时间：

2026-02-13

原始信息汇总

DeepImageSearch 数据集概述

数据集基本信息

数据集名称: DISBench
核心任务: 用于评估多模态智能体在视觉历史中进行上下文感知图像检索的能力。
核心创新: 代表了图像检索范式的演进，从独立的图像匹配推进到在视觉历史中进行语料库级别的上下文推理。该任务要求智能体必须自主规划搜索轨迹、发现潜在的跨图像关联，并通过多步探索链接分散的视觉证据，以返回符合条件的精确图像集合。

数据集构成与统计

总查询数: 122
查询类型分布:
- Intra-Event（事件内）: 46.7%，需要通过上下文线索定位目标事件，然后在其内部进行筛选。
- Inter-Event（事件间）: 53.3%，需要在多个事件间扫描，以在时间或空间约束下找到重复出现的元素。
用户总数: 57
照片总数: 109,467
每查询平均目标图像数: 3.84
每用户平均历史跨度: 3.4年

数据构建与来源

构建方法: 通过人机协作流程构建，利用视觉语言模型挖掘潜在的时空关联，随后进行严格的人工验证（从2000个候选查询中保留6.1%）。
数据来源: 基于 YFCC100M 数据集构建，遵循其知识共享许可条款。

评估框架与基准

评估框架: ImageSeeker
- 导航工具: 包括 ImageSearch（多模态检索）、GetMetadata / FilterMetadata（时空约束）、ViewPhotos（视觉验证）、WebSearch（外部知识解析）。
- 记忆系统: 包含用于在推理步骤间持久化命名照片子集的显式状态记忆，以及用于在上下文长度限制下维持推理状态的压缩上下文记忆（会话记忆+工作记忆）。
评估指标:
- 智能体评估: 计算集合级别的精确匹配率、F1分数、精确率、召回率和交并比。
- 直接检索基线评估: 计算 MAP@k、Recall@k 和 NDCG@k（k ∈ {1, 3, 5, 10}）。

数据获取与使用

主要获取地址: https://huggingface.co/datasets/RUC-NLPIR/DISBench
下载方式:
1. 推荐（Hugging Face）: 使用命令 huggingface-cli download RUC-NLPIR/DISBench --local-dir DISBench。
2. 手动下载: 运行 DISBench/download_images.py 脚本。
数据结构:

DISBench/ ├── queries.jsonl # 122个标注查询 ├── metadata/ │ └── {user_id}.jsonl # 每用户的照片元数据 ├── images/ │ └── {user_id}/ │ └── {photo_id}.jpg # 照片文件 └── evaluate.py # 评估脚本
详细数据格式文档: 位于 DISBench/README.md。

许可信息

本项目在 Apache 2.0 许可证下发布。

搜集汇总

数据集介绍

构建方式

DISBench的构建采用了人机协同的精细流程，以应对视觉历史中上下文感知图像检索的复杂性。研究团队首先从大规模的YFCC100M数据集中筛选出57位用户的十万余张照片，这些照片平均时间跨度达3.4年，构成了丰富的视觉历史序列。随后，利用先进的视觉语言模型挖掘照片间潜在的时空关联，自动生成了约两千个候选查询。最后，通过严格的人工验证与标注，仅保留了6.1%的高质量样本，最终形成了包含122个查询的基准数据集，确保了查询的多样性与推理深度。

使用方法

使用DISBench进行评估时，研究人员可通过Hugging Face平台便捷下载数据集，其目录结构清晰，包含查询标注、元数据及图像文件。评估框架支持两种模式：一是运行如ImageSeeker的智能体框架，配置多模态大模型与专用工具链，在最多30轮交互内完成检索；二是运行直接检索基线，利用视觉语言嵌入模型进行匹配。配套的评估脚本可分别计算智能体的集合级精确匹配、F1分数等指标，以及检索基线的MAP@k、Recall@k等排序指标，为模型能力提供全面量化分析。

背景与挑战

背景概述

在视觉信息检索领域，传统范式多聚焦于单张图像的语义对齐与匹配，然而现实场景中，用户积累的海量照片构成了蕴含丰富时空关联的视觉历史。针对此类跨图像、长序列的上下文感知检索需求，中国人民大学信息学院于2026年提出了DISBench基准数据集。该数据集由RUC-NLPIR团队主导构建，核心研究问题在于评估多模态智能体在视觉历史中进行语料级上下文推理的能力，即要求模型能够自主规划搜索轨迹、挖掘潜在的跨图像关联，并通过多步探索串联分散的视觉证据，从而精准定位符合复杂自然语言查询的目标图像集合。DISBench的建立标志着图像检索从独立匹配迈向上下文感知推理的新阶段，为多模态智能体的长程规划与推理能力评估提供了首个标准化测试平台。

当前挑战

DISBench所应对的领域挑战在于，如何使多模态智能体具备在长达数年、包含逾十万张图像的视觉历史中进行语料级上下文推理的能力。这要求模型超越传统的单图匹配，解决涉及事件内与事件间复杂关联的查询，例如依据时空线索定位特定事件，或跨多个事件筛选重复出现的元素。在数据集构建过程中，挑战主要源于从海量候选数据中挖掘具有潜在关联且需复杂推理的真实查询。研究团队采用人机协作流程，利用视觉语言模型初步挖掘潜在的时空关联，再经过严格的人工验证，最终从两千个候选查询中仅保留6.1%，确保了数据的高质量与任务的挑战性。

常用场景

经典使用场景

在视觉信息检索领域，随着个人数字影像库的急剧膨胀，传统基于单张图像语义匹配的检索范式已难以应对复杂情境下的查询需求。DISBench数据集通过构建包含十万余张照片的视觉历史序列，并设计122个需要跨图像关联推理的自然语言查询，为评估多模态智能体在长时序视觉记忆中进行上下文感知检索的能力提供了经典测试平台。其典型使用场景在于驱动智能体执行自主规划的多步探索轨迹，通过整合时空元数据筛选、视觉内容验证及外部知识解析等工具，在分散的视觉证据链中定位目标图像集合，从而模拟人类在个人相册中回溯特定事件或元素的认知过程。

解决学术问题

DISBench数据集主要针对多模态推理与检索研究中的关键瓶颈问题，即如何使智能体具备对视觉历史进行语料级上下文推理的能力。传统检索模型往往局限于单张图像的语义对齐，而该数据集通过引入事件内与事件间两种推理模式，系统性地挑战了智能体在长跨度时序数据中挖掘潜在时空关联、整合碎片化视觉线索的学术难题。其意义在于首次建立了衡量多模态智能体进行长视野导航与推理性能的基准，推动了图像检索范式从独立匹配向关联推理的演进，为探索具身智能在复杂视觉环境中的认知机制提供了实证基础。

实际应用

在实际应用层面，DISBench数据集所针对的上下文感知图像检索能力，能够直接赋能个人数字资产管理、智能相册组织与跨媒体内容挖掘等场景。例如，用户可通过自然语言查询如“找出我所有在雨天拍摄的桥梁照片”，系统便能自动遍历多年积累的影像库，综合天气、地点、视觉特征等多维度信息进行精准召回。该技术亦可扩展至医疗影像档案管理、安防监控视频分析及文化遗产数字化保护等领域，实现对海量非结构化视觉数据的高效、智能化的语义检索与知识发现，提升信息利用的深度与广度。

数据集最近研究