five

HippoCamp

收藏
github2026-04-02 更新2026-04-04 收录
下载链接:
https://github.com/synvo-ai/HippoCamp
下载链接
链接失效反馈
官方服务:
资源简介:
HippoCamp是一个用于评估上下文代理在现实多模态个人计算机环境中的基准测试,涵盖文档、图像、音频、视频、电子邮件、日历等日常文件的多模态文件管理,包含42.4 GB的数据和超过2K个文件。此外,HippoCamp还提供了581个QA对和46.1K个结构化轨迹注释,用于分析搜索、感知和多步推理失败。

HippoCamp is a benchmark for evaluating contextual agents in realistic multimodal personal computer environments, covering multimodal document management of daily files including documents, images, audio, video, emails, calendars and other common types. It holds 42.4 GB of data and over 2,000 files. Additionally, HippoCamp provides 581 QA pairs and 46.1K structured trajectory annotations for analyzing failures in search, perception and multi-step reasoning.
创建时间:
2026-03-30
原始信息汇总

HippoCamp 数据集概述

数据集简介

HippoCamp 是一个用于在真实个人计算环境中评估上下文智能体的基准测试。它涵盖了跨文档、图像、音频、视频、电子邮件、日历和其他日常工件的多模态文件管理,包含超过 2K 个文件,总计 42.4 GB 的数据。在这些环境之上,HippoCamp 提供了 581 个问答对和 46.1K 个结构化轨迹标注,用于分析搜索、感知和多步推理的失败情况。

核心特性

  • 数据规模:42.4 GB 的基准测试数据,包含超过 2000 个真实世界文件。
  • 标注内容:包含 581 个问答对和 46,100 个结构化轨迹标注。
  • 用户档案:包含 3 个用户档案(Adam, Bei, Victoria)。
  • 任务类型:涵盖 2 个任务系列(事实保留和用户画像)。

任务系列

  • 事实保留:检索、理解并推理基于多模态文件的事实信息。
  • 用户画像:跨文件和时间的分布式弱证据聚合,以推断连贯的用户模型。

数据发布内容

所有公开的基准测试数据均通过 Hugging Face 数据集页面分发:https://huggingface.co/datasets/MMMem-org/HippoCamp

主要资产

资产 位置 内容
GitHub 仓库 本仓库 代码、配置、文档、评估脚本
论文 https://huggingface.co/papers/2604.01221 HippoCamp 论文
数据集 https://huggingface.co/datasets/MMMem-org/HippoCamp 原始环境、标注、HippoCamp_Gold、元数据
项目主页 https://hippocamp-ai.github.io/ 基准测试概述、示例、排行榜
数据可视化 https://hippocamp-ai.github.io/hippocamp 交互式环境可视化
Docker 归档 https://drive.google.com/drive/folders/1B4pRH5_7XRtGs5G5qmoRLVFpO96mQNM3?usp=sharing 六个预构建的基准测试镜像
演示视频 https://youtu.be/ed-v_nhoaR4 端到端 WebUI 和智能体演示

数据结构

Hugging Face 数据集是权威的数据发布。其主要结构如下:

HippoCamp/ ├── Adam/ ├── Bei/ └── Victoria/

每个用户目录下包含 Fullset(完整集)和 Subset(子集),其中包含:

  • 原始个人计算文件目录。
  • 标注 JSON 文件(存储发布的问答对及 file_pathfile_numberfile_modalityfile_typeevidencerationaleagent_capQA_typeprofiling_type 等标注)。
  • HippoCamp_Gold 目录(存储模式为 {file_info, summary, segments} 的解析文本 JSON 文件)。
  • *_files.xlsx 电子表格(存储明确的元数据,如创建时间、修改时间和位置字段)。

数据集配置

Hugging Face 数据集查看器公开了六个配置,每个配置都有 profilingfactual_retention 分割:

配置 用户档案 范围 原始文件数 总问答数 用户画像问题数 事实保留问题数
adam_fullset Adam 完整 344 123 20 103
adam_subset Adam 子集 158 18 6 12
bei_fullset Bei 完整 875 235 20 215
bei_subset Bei 子集 147 27 4 23
victoria_fullset Victoria 完整 711 223 20 203
victoria_subset Victoria 子集 137 11 6 5

数据下载指南

如果你想... 下载此内容 原因 本地目标路径
运行 RAG / 搜索智能体流程 HippoCamp_Gold/ 它存储用于索引和检索的解析文本 JSON benchmark/HippoCamp_Gold/
运行终端智能体批量评估 一个官方标注 JSON,如 Adam.jsonAdam_Subset.json 它提供用作 --questions-file 的已发布问题、答案和证据标注 任何本地路径
复现分析图表 Adam.json, Bei.json, Victoria.json, Adam_files.xlsx, Bei_files.xlsx, Victoria_files.xlsx 分析脚本直接读取完整集标注和元数据电子表格 benchmark/analysis/data/
检查或研究原始基准测试环境 Adam/, Bei/, Victoria/ 下的六个源目录 它们包含原始的个人计算文件 任何本地路径

评估与复现

HippoCamp 公开了两种互补的评估路径:

  • RAG / 搜索智能体 流程(位于 benchmark/ 下)
  • 终端智能体 流程(位于 agent/ 下)

主要工作流程输入输出

工作流程 主要输入 所需外部资产 主要输出
RAG / 搜索智能体流程 benchmark/sample_questions.json(用于冒烟测试)或通过 --batch 指定的官方标注 JSON benchmark/HippoCamp_Gold/ --output-dir 中的每个查询结果 JSON,以及 summary_*.jsonevaluation_*.json
终端智能体,单个问题 Docker 容器加上 --question Docker 镜像归档 通过 --log-json 生成的一个会话日志 JSON
终端智能体,批量 指向官方标注 JSON 的 --questions-file Docker 镜像归档 summary.jsonl、每个问题的结果 JSON 文件、aggregate.json 以及 stdout/stderr 日志
顶层评估器 通过 evaluate.py --input-dataset 指定的 JSON 或 JSONL 文件 每个查询的评判结果 JSON 和聚合指标 JSON
分析脚本 完整集标注 JSON 文件和 *_files.xlsx 电子表格 Hugging Face 完整集资产 benchmark/analysis/outputs/ 下的图表和报告

分析结果概览

  • 每个问题所需的支持文件数量:展示了每个问题需要多少真实支持文件,这是基准测试对证据广度的直接视图。
  • 每个问题的证据模态数量:展示了每个问题跨越多少不同的文件模态,例如文档、图像、音频或其他文件类型。
  • 每个问题的标注推理深度:展示了发布的原理标注所需的推理步骤数。
  • 总体难度分布:总结了发布的标量难度分数,该分数结合了证据广度、模态广度、文件类型、证据项、推理步骤、问题长度、答案长度和时间跨度。
  • 性能随问题难度增加的变化:将问题难度与各发布方法的每个问题评判分数对齐,展示了性能如何随着问题变难而变化。

引用

bibtex @misc{yang2026hippocampbenchmarkingcontextualagents, title={HippoCamp: Benchmarking Contextual Agents on Personal Computers}, author={Zhe Yang and Shulin Tian and Kairui Hu and Shuai Liu and Hoang-Nhat Nguyen and Yichi Zhang and Zujin Guo and Mengying Yu and Zinan Zhang and Jingkang Yang and Chen Change Loy and Ziwei Liu}, year={2026}, eprint={2604.01221}, archivePrefix={arXiv}, primaryClass={cs.AI} }

搜集汇总
数据集介绍
main_image_url
构建方式
在个人计算环境智能代理评估领域,HippoCamp数据集通过构建三个典型用户档案的真实个人计算环境来构建。该数据集整合了超过两千个真实世界文件,涵盖文档、图像、音频、视频、电子邮件及日历等多种模态,总数据量达42.4GB。在此基础上,研究团队精心设计了581个问答对,并标注了46.1K条结构化轨迹,这些轨迹详细记录了搜索、感知及多步推理过程中的关键节点,为深入分析智能代理的失败模式提供了丰富的数据基础。
特点
HippoCamp数据集以其高度的真实性和多模态复杂性著称。数据集模拟了个人计算机中常见的文件管理场景,通过三个不同用户的完整档案展现了日常计算环境的多样性。每个档案下包含完整集和子集两种规模,支持不同复杂度的评估需求。数据集特别强调了证据的广度和推理深度,每个问题都标注了所需的支持文件数量、涉及的文件模态类型以及必要的推理步骤数,这为评估智能代理在真实环境中的上下文理解与推理能力提供了多维度的衡量标准。
使用方法
使用HippoCamp数据集主要遵循两条评估路径。对于基于检索增强生成(RAG)或搜索代理的流程,用户需将解析后的文本数据置于指定目录,通过配置本地向量数据库并运行查询脚本进行评估。对于终端代理评估,则需加载预构建的Docker镜像环境,通过提供的Python脚本进行单问题交互或批量测试。数据集提供了详细的配置文件和环境变量示例,用户可根据研究目标选择相应的标注JSON文件作为问题输入,并利用内置的评估脚本生成包括ROUGE、BLEU及基于大语言模型的评判分数在内的多维度性能指标。
背景与挑战
背景概述
在人工智能领域,面向个人计算环境的智能体评估长期缺乏真实、多模态的基准测试工具。HippoCamp数据集应运而生,由新加坡南洋理工大学等机构的研究团队于2026年创建,旨在系统化评估上下文智能体在复杂个人计算环境中的表现。该数据集聚焦于两大核心研究问题:事实保留与用户画像推断,通过涵盖文档、图像、音频、视频等多元文件类型,构建了超过42.4GB的真实数据环境。其创新性在于将传统检索任务扩展至跨模态、跨时间的证据聚合,为智能体的感知、搜索与推理能力提供了精细化评估框架,对推动具身智能与个性化AI系统的发展具有重要影响力。
当前挑战
HippoCamp所应对的领域挑战在于解决智能体在真实个人计算环境中进行多模态信息理解与长期上下文推理的难题。具体而言,数据集要求智能体在分散、异构的文件流中精准检索证据,并整合弱监督信号以构建连贯用户模型,这对现有模型的跨模态对齐与时序推理能力提出了严峻考验。在构建过程中,研究团队面临数据采集与标注的双重挑战:一方面需在保护隐私前提下收集大规模真实个人计算文件,确保数据多样性与生态有效性;另一方面需设计结构化标注体系,对581个问答对与4.61万条轨迹注释进行多维度标注,涵盖证据路径、模态类型与推理深度等复杂维度,其标注一致性维护与质量验证过程极具复杂性。
常用场景
经典使用场景
在个人计算环境智能代理研究领域,HippoCamp数据集为评估多模态上下文理解能力提供了标准化测试平台。该数据集通过模拟真实用户的文件管理系统,构建了涵盖文档、图像、音频、视频等多元模态的测试环境。研究者通常利用其581组问答对和4.61万条结构化轨迹标注,系统评估智能代理在跨模态信息检索、分布式证据整合以及多步推理等方面的性能表现,为智能代理在复杂个人计算场景中的适应性研究奠定实证基础。
衍生相关工作
围绕该数据集已衍生出系列经典研究工作。在评估方法创新方面,研究者开发了基于检索增强生成(RAG)的搜索代理管道与终端代理评估框架的双路径验证体系。在模型能力分析领域,相关研究通过轨迹标注实现了对搜索、感知、推理失败模式的细粒度归因分析。数据集提供的多用户画像设置,进一步催生了针对个性化代理适应性的对比研究,推动了智能代理在异构计算环境中的泛化能力评估标准建设。
数据集最近研究
最新研究方向
在个人计算环境智能体评估领域,HippoCamp数据集正推动着多模态情境理解与长期记忆推理的前沿探索。该数据集通过整合文档、图像、音频等多样化文件类型,构建了接近真实用户场景的复杂环境,为智能体在事实保留与用户画像推断任务上的性能提供了严谨的评估基准。当前研究聚焦于智能体在跨模态信息检索、分布式证据聚合以及多步骤推理等方面的能力突破,尤其关注其在处理海量非结构化数据时的搜索、感知与推理失效模式。这些探索不仅响应了具身智能与个性化助理系统的快速发展,也为下一代情境感知智能体的设计与优化提供了关键的数据支撑和评估框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作