HippoCamp
收藏HippoCamp 数据集概述
数据集简介
HippoCamp 是一个用于在真实个人计算环境中评估上下文智能体的基准测试。它涵盖了跨文档、图像、音频、视频、电子邮件、日历和其他日常工件的多模态文件管理,包含超过 2K 个文件,总计 42.4 GB 的数据。在这些环境之上,HippoCamp 提供了 581 个问答对和 46.1K 个结构化轨迹标注,用于分析搜索、感知和多步推理的失败情况。
核心特性
- 数据规模:42.4 GB 的基准测试数据,包含超过 2000 个真实世界文件。
- 标注内容:包含 581 个问答对和 46,100 个结构化轨迹标注。
- 用户档案:包含 3 个用户档案(Adam, Bei, Victoria)。
- 任务类型:涵盖 2 个任务系列(事实保留和用户画像)。
任务系列
- 事实保留:检索、理解并推理基于多模态文件的事实信息。
- 用户画像:跨文件和时间的分布式弱证据聚合,以推断连贯的用户模型。
数据发布内容
所有公开的基准测试数据均通过 Hugging Face 数据集页面分发:https://huggingface.co/datasets/MMMem-org/HippoCamp
主要资产
| 资产 | 位置 | 内容 |
|---|---|---|
| GitHub 仓库 | 本仓库 | 代码、配置、文档、评估脚本 |
| 论文 | https://huggingface.co/papers/2604.01221 | HippoCamp 论文 |
| 数据集 | https://huggingface.co/datasets/MMMem-org/HippoCamp | 原始环境、标注、HippoCamp_Gold、元数据 |
| 项目主页 | https://hippocamp-ai.github.io/ | 基准测试概述、示例、排行榜 |
| 数据可视化 | https://hippocamp-ai.github.io/hippocamp | 交互式环境可视化 |
| Docker 归档 | https://drive.google.com/drive/folders/1B4pRH5_7XRtGs5G5qmoRLVFpO96mQNM3?usp=sharing | 六个预构建的基准测试镜像 |
| 演示视频 | https://youtu.be/ed-v_nhoaR4 | 端到端 WebUI 和智能体演示 |
数据结构
Hugging Face 数据集是权威的数据发布。其主要结构如下:
HippoCamp/ ├── Adam/ ├── Bei/ └── Victoria/
每个用户目录下包含 Fullset(完整集)和 Subset(子集),其中包含:
- 原始个人计算文件目录。
- 标注 JSON 文件(存储发布的问答对及
file_path、file_number、file_modality、file_type、evidence、rationale、agent_cap、QA_type、profiling_type等标注)。 HippoCamp_Gold目录(存储模式为{file_info, summary, segments}的解析文本 JSON 文件)。*_files.xlsx电子表格(存储明确的元数据,如创建时间、修改时间和位置字段)。
数据集配置
Hugging Face 数据集查看器公开了六个配置,每个配置都有 profiling 和 factual_retention 分割:
| 配置 | 用户档案 | 范围 | 原始文件数 | 总问答数 | 用户画像问题数 | 事实保留问题数 |
|---|---|---|---|---|---|---|
adam_fullset |
Adam | 完整 | 344 | 123 | 20 | 103 |
adam_subset |
Adam | 子集 | 158 | 18 | 6 | 12 |
bei_fullset |
Bei | 完整 | 875 | 235 | 20 | 215 |
bei_subset |
Bei | 子集 | 147 | 27 | 4 | 23 |
victoria_fullset |
Victoria | 完整 | 711 | 223 | 20 | 203 |
victoria_subset |
Victoria | 子集 | 137 | 11 | 6 | 5 |
数据下载指南
| 如果你想... | 下载此内容 | 原因 | 本地目标路径 |
|---|---|---|---|
| 运行 RAG / 搜索智能体流程 | HippoCamp_Gold/ |
它存储用于索引和检索的解析文本 JSON | benchmark/HippoCamp_Gold/ |
| 运行终端智能体批量评估 | 一个官方标注 JSON,如 Adam.json 或 Adam_Subset.json |
它提供用作 --questions-file 的已发布问题、答案和证据标注 |
任何本地路径 |
| 复现分析图表 | Adam.json, Bei.json, Victoria.json, Adam_files.xlsx, Bei_files.xlsx, Victoria_files.xlsx |
分析脚本直接读取完整集标注和元数据电子表格 | benchmark/analysis/data/ |
| 检查或研究原始基准测试环境 | Adam/, Bei/, Victoria/ 下的六个源目录 |
它们包含原始的个人计算文件 | 任何本地路径 |
评估与复现
HippoCamp 公开了两种互补的评估路径:
- RAG / 搜索智能体 流程(位于
benchmark/下) - 终端智能体 流程(位于
agent/下)
主要工作流程输入输出
| 工作流程 | 主要输入 | 所需外部资产 | 主要输出 |
|---|---|---|---|
| RAG / 搜索智能体流程 | benchmark/sample_questions.json(用于冒烟测试)或通过 --batch 指定的官方标注 JSON |
benchmark/HippoCamp_Gold/ |
--output-dir 中的每个查询结果 JSON,以及 summary_*.json 和 evaluation_*.json |
| 终端智能体,单个问题 | Docker 容器加上 --question |
Docker 镜像归档 | 通过 --log-json 生成的一个会话日志 JSON |
| 终端智能体,批量 | 指向官方标注 JSON 的 --questions-file |
Docker 镜像归档 | summary.jsonl、每个问题的结果 JSON 文件、aggregate.json 以及 stdout/stderr 日志 |
| 顶层评估器 | 通过 evaluate.py --input-dataset 指定的 JSON 或 JSONL 文件 |
无 | 每个查询的评判结果 JSON 和聚合指标 JSON |
| 分析脚本 | 完整集标注 JSON 文件和 *_files.xlsx 电子表格 |
Hugging Face 完整集资产 | benchmark/analysis/outputs/ 下的图表和报告 |
分析结果概览
- 每个问题所需的支持文件数量:展示了每个问题需要多少真实支持文件,这是基准测试对证据广度的直接视图。
- 每个问题的证据模态数量:展示了每个问题跨越多少不同的文件模态,例如文档、图像、音频或其他文件类型。
- 每个问题的标注推理深度:展示了发布的原理标注所需的推理步骤数。
- 总体难度分布:总结了发布的标量难度分数,该分数结合了证据广度、模态广度、文件类型、证据项、推理步骤、问题长度、答案长度和时间跨度。
- 性能随问题难度增加的变化:将问题难度与各发布方法的每个问题评判分数对齐,展示了性能如何随着问题变难而变化。
引用
bibtex @misc{yang2026hippocampbenchmarkingcontextualagents, title={HippoCamp: Benchmarking Contextual Agents on Personal Computers}, author={Zhe Yang and Shulin Tian and Kairui Hu and Shuai Liu and Hoang-Nhat Nguyen and Yichi Zhang and Zujin Guo and Mengying Yu and Zinan Zhang and Jingkang Yang and Chen Change Loy and Ziwei Liu}, year={2026}, eprint={2604.01221}, archivePrefix={arXiv}, primaryClass={cs.AI} }




