MEMENTO

github2025-05-22 更新2025-06-10 收录

下载链接：

https://github.com/Connoriginal/MEMENTO

下载链接

链接失效反馈

官方服务：

资源简介：

MEMENTO数据集分为三个部分：1. 用于记忆获取阶段的数据集；2. 用于记忆利用阶段（单记忆任务）的数据集；3. 用于记忆利用阶段（双记忆任务）的数据集。数据集文件已上传至`./data/datasets/`目录。

The MEMENTO dataset consists of three parts: 1. Dataset for the memory acquisition stage; 2. Dataset for the memory utilization stage (single-memory task); 3. Dataset for the memory utilization stage (dual-memory task). The dataset files have been uploaded to the `./data/datasets/` directory.

创建时间：

2025-05-22

原始信息汇总

MEMENTO数据集概述

数据集简介

MEMENTO是一个面向个性化具身智能体的评估框架，专注于分析记忆利用能力。该框架通过两阶段记忆评估过程（记忆获取阶段和记忆利用阶段），评估智能体在物体重排任务中对个性化知识的理解和应用能力。

数据集组成

数据集分为三部分：

记忆获取阶段数据集
记忆利用阶段数据集（单记忆任务）
记忆利用阶段数据集（双记忆任务）

评估维度

对象语义理解：基于个性化含义识别目标对象的能力
用户模式推理：从用户习惯中推断对象-位置配置的能力

技术特点

基于Docker容器化部署
支持多种LLM模型（包括OpenAI、Anthropic、OpenRouter等）
提供完整的实验配置体系（数据集配置、LLM配置、实验管理）

实验设置

记忆获取阶段脚本：./scripts/acquisition_stage.sh
数据集配置文件：./src/conf/habitat_conf/dataset/v1/v1_stage1.yaml
实验管理文件：./src/conf/v1_experiment/v1_stage1.yaml

许可协议

MIT许可证

搜集汇总

数据集介绍

构建方式

在个性化智能体研究领域，MEMENTO采用创新的两阶段记忆评估框架构建数据集。该框架首先通过记忆获取阶段收集智能体与个性化知识指令的交互历史，随后在记忆利用阶段设计修改后的指令以检验智能体对历史记忆的调用能力。数据集构建过程中特别关注目标对象语义识别和用户行为模式推断两大核心维度，通过Docker容器技术实现标准化环境部署，并采用Habitat-Lab仿真平台生成结构化评估场景。

特点

该数据集最显著的特征在于其针对个性化知识处理的专项设计。通过单记忆任务和双记忆任务的层级划分，系统评估智能体在对象语义理解和用户模式推理方面的表现。数据集包含完整的实验配置体系，涵盖数据定义文件、大语言模型接口配置和实验管理模块，支持OpenAI、Anthropic等多种模型接入。其独特的记忆评估机制为研究个性化智能体的认知能力提供了标准化度量基准。

使用方法

使用该数据集需通过Docker容器搭建实验环境，挂载本地模型存储、Habitat数据和代码工作区。实验执行分为两个阶段：通过acquisition_stage.sh脚本启动记忆获取实验，利用预定义的YAML配置文件管理数据集版本和模型参数。研究人员可灵活配置llm模块中的API选项，通过build_memory参数生成记忆数据，并启用save_video功能记录仿真过程。数据集文件统一存放在./data/datasets目录下，按照实验阶段和任务类型进行分类存储。

背景与挑战

背景概述

MEMENTO数据集由Facebook Research等机构的研究团队于2025年推出，旨在解决具身智能体在个性化辅助任务中的记忆利用问题。该数据集聚焦于大语言模型驱动的具身智能体在对象重排任务中的表现，特别关注其对个性化知识的理解与运用。数据集通过两阶段评估框架——记忆获取阶段与记忆利用阶段，系统性地考察智能体对用户个性化语义（如对象语义）和用户行为模式（如日常习惯）的认知能力。作为个性化具身智能研究领域的重要基准，MEMENTO为探索记忆机制在动态指令解释中的作用提供了标准化评估平台，推动了人机交互场景下个性化服务的技术发展。

当前挑战

MEMENTO数据集面临的核心挑战主要体现在两个方面：在领域问题层面，如何准确捕捉并建模用户个性化知识这一主观概念存在显著困难，特别是当涉及对象语义的模糊界定或用户模式的动态变化时；在构建技术层面，创建真实反映个性化知识交互场景的标注数据需要平衡语义复杂性与标注一致性，同时设计能有效评估记忆利用能力的双重任务框架也面临实验设计复杂度的挑战。当前实验结果表明，即使是前沿大语言模型在利用包含个性化知识的记忆方面仍存在明显局限，这凸显了数据集所揭示的技术瓶颈的严峻性。

常用场景

经典使用场景

在个性化智能体研究领域，MEMENTO数据集为评估具身代理在记忆利用方面的能力提供了标准化框架。该数据集通过两阶段评估流程——记忆获取阶段和记忆利用阶段，模拟了真实场景中智能体需要理解用户个性化语义并利用历史交互完成动态指令的过程。研究人员可以基于该数据集，系统测试智能体在目标对象识别和用户模式推理等核心任务上的表现。

解决学术问题

MEMENTO有效解决了具身智能研究中的关键瓶颈问题：如何评估智能体对个性化知识的理解和记忆利用能力。传统评估方法局限于静态指令和单一交互，而该数据集通过引入个性化语义和动态指令，为研究智能体在复杂环境中的持续学习、情境理解和记忆检索机制提供了标准化测试平台，推动了具身智能向个性化服务方向发展。

衍生相关工作

基于MEMENTO数据集，研究者已开展多项前沿探索。部分工作聚焦于改进大型语言模型在具身环境中的记忆机制，另一些研究则致力于开发新型的个性化知识表示方法。这些衍生研究显著推进了具身智能在持续学习、多模态记忆融合等方向的发展，为构建更智能的个性化服务系统奠定了理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集