HippoCamp

github2026-04-02 更新2026-04-04 收录

下载链接：

https://github.com/synvo-ai/HippoCamp

下载链接

链接失效反馈

官方服务：

资源简介：

HippoCamp是一个用于评估上下文代理在现实多模态个人计算机环境中的基准测试，涵盖文档、图像、音频、视频、电子邮件、日历等日常文件的多模态文件管理，包含42.4 GB的数据和超过2K个文件。此外，HippoCamp还提供了581个QA对和46.1K个结构化轨迹注释，用于分析搜索、感知和多步推理失败。

HippoCamp is a benchmark for evaluating contextual agents in realistic multimodal personal computer environments, covering multimodal document management of daily files including documents, images, audio, video, emails, calendars and other common types. It holds 42.4 GB of data and over 2,000 files. Additionally, HippoCamp provides 581 QA pairs and 46.1K structured trajectory annotations for analyzing failures in search, perception and multi-step reasoning.

创建时间：

2026-03-30

原始信息汇总

HippoCamp 数据集概述

数据集简介

HippoCamp 是一个用于在真实个人计算环境中评估上下文智能体的基准测试。它涵盖了跨文档、图像、音频、视频、电子邮件、日历和其他日常工件的多模态文件管理，包含超过 2K 个文件，总计 42.4 GB 的数据。在这些环境之上，HippoCamp 提供了 581 个问答对和 46.1K 个结构化轨迹标注，用于分析搜索、感知和多步推理的失败情况。

核心特性

数据规模：42.4 GB 的基准测试数据，包含超过 2000 个真实世界文件。
标注内容：包含 581 个问答对和 46,100 个结构化轨迹标注。
用户档案：包含 3 个用户档案（Adam, Bei, Victoria）。
任务类型：涵盖 2 个任务系列（事实保留和用户画像）。

任务系列

事实保留：检索、理解并推理基于多模态文件的事实信息。
用户画像：跨文件和时间的分布式弱证据聚合，以推断连贯的用户模型。

数据发布内容

所有公开的基准测试数据均通过 Hugging Face 数据集页面分发：https://huggingface.co/datasets/MMMem-org/HippoCamp

主要资产

资产	位置	内容
GitHub 仓库	本仓库	代码、配置、文档、评估脚本
论文	https://huggingface.co/papers/2604.01221	HippoCamp 论文
数据集	https://huggingface.co/datasets/MMMem-org/HippoCamp	原始环境、标注、`HippoCamp_Gold`、元数据
项目主页	https://hippocamp-ai.github.io/	基准测试概述、示例、排行榜
数据可视化	https://hippocamp-ai.github.io/hippocamp	交互式环境可视化
Docker 归档	https://drive.google.com/drive/folders/1B4pRH5_7XRtGs5G5qmoRLVFpO96mQNM3?usp=sharing	六个预构建的基准测试镜像
演示视频	https://youtu.be/ed-v_nhoaR4	端到端 WebUI 和智能体演示

数据结构

Hugging Face 数据集是权威的数据发布。其主要结构如下：

HippoCamp/ ├── Adam/ ├── Bei/ └── Victoria/

每个用户目录下包含 Fullset（完整集）和 Subset（子集），其中包含：

原始个人计算文件目录。
标注 JSON 文件（存储发布的问答对及 file_path、file_number、file_modality、file_type、evidence、rationale、agent_cap、QA_type、profiling_type 等标注）。
HippoCamp_Gold 目录（存储模式为 {file_info, summary, segments} 的解析文本 JSON 文件）。
*_files.xlsx 电子表格（存储明确的元数据，如创建时间、修改时间和位置字段）。

数据集配置

Hugging Face 数据集查看器公开了六个配置，每个配置都有 profiling 和 factual_retention 分割：

配置	用户档案	范围	原始文件数	总问答数	用户画像问题数	事实保留问题数
`adam_fullset`	Adam	完整	344	123	20	103
`adam_subset`	Adam	子集	158	18	6	12
`bei_fullset`	Bei	完整	875	235	20	215
`bei_subset`	Bei	子集	147	27	4	23
`victoria_fullset`	Victoria	完整	711	223	20	203
`victoria_subset`	Victoria	子集	137	11	6	5

数据下载指南

如果你想...	下载此内容	原因	本地目标路径
运行 RAG / 搜索智能体流程	`HippoCamp_Gold/`	它存储用于索引和检索的解析文本 JSON	`benchmark/HippoCamp_Gold/`
运行终端智能体批量评估	一个官方标注 JSON，如 `Adam.json` 或 `Adam_Subset.json`	它提供用作 `--questions-file` 的已发布问题、答案和证据标注	任何本地路径
复现分析图表	`Adam.json`, `Bei.json`, `Victoria.json`, `Adam_files.xlsx`, `Bei_files.xlsx`, `Victoria_files.xlsx`	分析脚本直接读取完整集标注和元数据电子表格	`benchmark/analysis/data/`
检查或研究原始基准测试环境	`Adam/`, `Bei/`, `Victoria/` 下的六个源目录	它们包含原始的个人计算文件	任何本地路径

评估与复现

HippoCamp 公开了两种互补的评估路径：

RAG / 搜索智能体 流程（位于 benchmark/ 下）
终端智能体 流程（位于 agent/ 下）

主要工作流程输入输出

工作流程	主要输入	所需外部资产	主要输出
RAG / 搜索智能体流程	`benchmark/sample_questions.json`（用于冒烟测试）或通过 `--batch` 指定的官方标注 JSON	`benchmark/HippoCamp_Gold/`	`--output-dir` 中的每个查询结果 JSON，以及 `summary_.json` 和 `evaluation_.json`
终端智能体，单个问题	Docker 容器加上 `--question`	Docker 镜像归档	通过 `--log-json` 生成的一个会话日志 JSON
终端智能体，批量	指向官方标注 JSON 的 `--questions-file`	Docker 镜像归档	`summary.jsonl`、每个问题的结果 JSON 文件、`aggregate.json` 以及 stdout/stderr 日志
顶层评估器	通过 `evaluate.py --input-dataset` 指定的 JSON 或 JSONL 文件	无	每个查询的评判结果 JSON 和聚合指标 JSON
分析脚本	完整集标注 JSON 文件和 `*_files.xlsx` 电子表格	Hugging Face 完整集资产	`benchmark/analysis/outputs/` 下的图表和报告

分析结果概览

每个问题所需的支持文件数量：展示了每个问题需要多少真实支持文件，这是基准测试对证据广度的直接视图。
每个问题的证据模态数量：展示了每个问题跨越多少不同的文件模态，例如文档、图像、音频或其他文件类型。
每个问题的标注推理深度：展示了发布的原理标注所需的推理步骤数。
总体难度分布：总结了发布的标量难度分数，该分数结合了证据广度、模态广度、文件类型、证据项、推理步骤、问题长度、答案长度和时间跨度。
性能随问题难度增加的变化：将问题难度与各发布方法的每个问题评判分数对齐，展示了性能如何随着问题变难而变化。

引用

bibtex @misc{yang2026hippocampbenchmarkingcontextualagents, title={HippoCamp: Benchmarking Contextual Agents on Personal Computers}, author={Zhe Yang and Shulin Tian and Kairui Hu and Shuai Liu and Hoang-Nhat Nguyen and Yichi Zhang and Zujin Guo and Mengying Yu and Zinan Zhang and Jingkang Yang and Chen Change Loy and Ziwei Liu}, year={2026}, eprint={2604.01221}, archivePrefix={arXiv}, primaryClass={cs.AI} }

搜集汇总

数据集介绍

构建方式

在个人计算环境智能代理评估领域，HippoCamp数据集通过构建三个典型用户档案的真实个人计算环境来构建。该数据集整合了超过两千个真实世界文件，涵盖文档、图像、音频、视频、电子邮件及日历等多种模态，总数据量达42.4GB。在此基础上，研究团队精心设计了581个问答对，并标注了46.1K条结构化轨迹，这些轨迹详细记录了搜索、感知及多步推理过程中的关键节点，为深入分析智能代理的失败模式提供了丰富的数据基础。

特点

HippoCamp数据集以其高度的真实性和多模态复杂性著称。数据集模拟了个人计算机中常见的文件管理场景，通过三个不同用户的完整档案展现了日常计算环境的多样性。每个档案下包含完整集和子集两种规模，支持不同复杂度的评估需求。数据集特别强调了证据的广度和推理深度，每个问题都标注了所需的支持文件数量、涉及的文件模态类型以及必要的推理步骤数，这为评估智能代理在真实环境中的上下文理解与推理能力提供了多维度的衡量标准。

使用方法

使用HippoCamp数据集主要遵循两条评估路径。对于基于检索增强生成（RAG）或搜索代理的流程，用户需将解析后的文本数据置于指定目录，通过配置本地向量数据库并运行查询脚本进行评估。对于终端代理评估，则需加载预构建的Docker镜像环境，通过提供的Python脚本进行单问题交互或批量测试。数据集提供了详细的配置文件和环境变量示例，用户可根据研究目标选择相应的标注JSON文件作为问题输入，并利用内置的评估脚本生成包括ROUGE、BLEU及基于大语言模型的评判分数在内的多维度性能指标。

背景与挑战

背景概述

在人工智能领域，面向个人计算环境的智能体评估长期缺乏真实、多模态的基准测试工具。HippoCamp数据集应运而生，由新加坡南洋理工大学等机构的研究团队于2026年创建，旨在系统化评估上下文智能体在复杂个人计算环境中的表现。该数据集聚焦于两大核心研究问题：事实保留与用户画像推断，通过涵盖文档、图像、音频、视频等多元文件类型，构建了超过42.4GB的真实数据环境。其创新性在于将传统检索任务扩展至跨模态、跨时间的证据聚合，为智能体的感知、搜索与推理能力提供了精细化评估框架，对推动具身智能与个性化AI系统的发展具有重要影响力。

当前挑战

HippoCamp所应对的领域挑战在于解决智能体在真实个人计算环境中进行多模态信息理解与长期上下文推理的难题。具体而言，数据集要求智能体在分散、异构的文件流中精准检索证据，并整合弱监督信号以构建连贯用户模型，这对现有模型的跨模态对齐与时序推理能力提出了严峻考验。在构建过程中，研究团队面临数据采集与标注的双重挑战：一方面需在保护隐私前提下收集大规模真实个人计算文件，确保数据多样性与生态有效性；另一方面需设计结构化标注体系，对581个问答对与4.61万条轨迹注释进行多维度标注，涵盖证据路径、模态类型与推理深度等复杂维度，其标注一致性维护与质量验证过程极具复杂性。

常用场景

经典使用场景

在个人计算环境智能代理研究领域，HippoCamp数据集为评估多模态上下文理解能力提供了标准化测试平台。该数据集通过模拟真实用户的文件管理系统，构建了涵盖文档、图像、音频、视频等多元模态的测试环境。研究者通常利用其581组问答对和4.61万条结构化轨迹标注，系统评估智能代理在跨模态信息检索、分布式证据整合以及多步推理等方面的性能表现，为智能代理在复杂个人计算场景中的适应性研究奠定实证基础。

衍生相关工作

围绕该数据集已衍生出系列经典研究工作。在评估方法创新方面，研究者开发了基于检索增强生成（RAG）的搜索代理管道与终端代理评估框架的双路径验证体系。在模型能力分析领域，相关研究通过轨迹标注实现了对搜索、感知、推理失败模式的细粒度归因分析。数据集提供的多用户画像设置，进一步催生了针对个性化代理适应性的对比研究，推动了智能代理在异构计算环境中的泛化能力评估标准建设。

数据集最近研究