MARPLE

Name: MARPLE
Creator: 斯坦福大学
Published: 2024-10-03 02:20:51
License: 暂无描述

arXiv2024-10-03 更新2024-10-05 收录

下载链接：

https://marple-benchmark.github.io/

下载链接

金山云加速下载

链接失效反馈

官方服务：

资源简介：

MARPLE是由斯坦福大学开发的一个用于评估长时推理能力的基准数据集。该数据集通过模拟家庭环境中的智能体交互，支持视觉、语言和听觉等多模态证据，旨在测试模型在日常家庭场景中解决“whodunit”类型问题的能力。数据集内容包括多模态观察数据和智能体行为轨迹，通过Mini-BEHAVIOR模拟器生成。创建过程涉及多层次的规划和模拟，以生成多样化的环境和智能体行为。MARPLE主要应用于机器学习和认知科学领域，旨在解决复杂场景中的长时多模态推理问题。

MARPLE is a benchmark dataset developed by Stanford University for evaluating long-duration reasoning abilities. This dataset supports multimodal evidence encompassing visual, linguistic, and auditory modalities by simulating agent interactions in home environments, with the core goal of testing models' capacity to solve "whodunit"-style problems in everyday household scenarios. The dataset consists of multimodal observational data and agent behavior trajectories, which are generated using the Mini-BEHAVIOR simulator. Its development process involves multi-level planning and simulation to produce diverse environments and agent behaviors. MARPLE is primarily utilized in the fields of machine learning and cognitive science, targeting the solution of long-duration multimodal reasoning problems in complex scenarios.

提供机构：

斯坦福大学

创建时间：

2024-10-03

原始信息汇总

MARPLE: A Benchmark for Long-Horizon Inference

概述

MARPLE是一个用于评估长时推理能力的基准，基于多模态证据。主要目标是测试模型在日常家庭场景中回答“whodunit”风格问题的能力，例如“谁打开了洗衣机？”。推理问题要求在给定代理的先前行为和环境状态的情况下，从两个潜在嫌疑人中选择正确的代理。

数据集详情

任务设置：两个代理A和B分别执行任务，如“洗衣服”和“换衣服”。每个代理必须与环境互动，导致世界的变化并留下其活动的证据。通过选择一个仅属于一个代理轨迹的状态来构建“whodunit”问题。
评估性能：推理能力通过正确选择负责查询状态的代理的概率来衡量。更强的模型需要更少的证据，并在早期达到较高的推理准确性。

基准概述

任务数量：10个多样化的长时任务，配对创建5个具有挑战性的推理场景。
数据集：每个任务包含训练和测试数据集，包括两个训练数据集（每个包含5000个代理轨迹）和一个测试数据集（包含500个多样化的代理轨迹）。

家庭模拟器

多模态环境：快速、程序化生成，支持视觉、语言和听觉刺激。
分层代理规划器：用于程序化生成多样化的代理行为。
人类用户界面：直观的UI，支持与人类的认知科学实验。

推理方法

心理模拟与学习代理模型：结合蒙特卡罗树搜索（MCTS）与学习代理策略模型进行心理模拟。
LLM（GPT-4）：要求GPT-4在给定两个连续时间步的视觉观察的情况下，预测哪个代理更有可能引起查询状态。
人类基线：人类参与者在给定代理轨迹的并排视觉观察的情况下回答推理问题。

实验结果

心理模拟模型：通常比GPT-4实现更高的准确性和一致性，展示了显式执行逐步心理模拟的好处。
GPT-4：表现具有竞争力，但有时由于其偏向于代理状态的变化而不是环境的变化而无法收敛。
人类参与者：提供了强大的性能上限，在给定较少证据的情况下表现优于所有模型，即使没有显著的训练。

结论

MARPLE展示了当前AI模型在利用多模态刺激和执行长时推理方面仍落后于人类。希望MARPLE能够促进进一步的AI和认知科学研究，以弥合复杂现实世界推理场景中人工和人类认知能力之间的差距。

搜集汇总

数据集介绍

构建方式

MARPLE数据集通过模拟家庭环境中的多模态证据，构建了一个用于评估长时推理能力的基准。该数据集基于Mini-BEHAVIOR模拟器，扩展了其功能以支持自主代理、层次规划器以及视觉、语言和听觉刺激的生成。通过模拟代理与环境的交互，生成多模态证据（视觉、语言和音频），MARPLE能够生成丰富的代理行为和多样化的环境状态。

特点

MARPLE数据集的特点在于其长时推理任务的设计，这些任务要求模型在复杂的日常场景中进行多模态推理。数据集支持视觉、语言和听觉刺激，并提供了多样化的训练和推理数据。此外，MARPLE还定义了评估推理任务的指标，确保了数据集在机器学习和认知科学研究中的实用性。

使用方法

MARPLE数据集适用于开发和评估事件重建和多模态推理的机器学习模型。研究者可以使用该数据集训练模型，以预测代理的目标或行为，并推断环境状态的变化。数据集提供了预先收集的数据和评估指标，便于研究人员快速上手并进行系统性的实验。此外，MARPLE还支持人类实验，为建立性能基准提供了参考。

背景与挑战

背景概述

MARPLE数据集由斯坦福大学的研究人员于2024年创建，旨在评估长时推理能力。该数据集的核心研究问题是如何基于多模态证据（视觉、语言和听觉）进行长时推理，以重建过去的事件。MARPLE通过模拟家庭环境中的代理交互，支持视觉、语言和听觉刺激，并生成程序化的环境和代理行为。其灵感来源于经典的“whodunit”故事，要求AI模型和人类参与者根据实际发生的事件逐步回放，推断出哪个代理导致了环境的变化。该数据集的引入填补了现有基准在复杂日常场景中长时多模态推理评估的空白，对人工智能和认知科学领域具有重要影响。

当前挑战

MARPLE数据集面临的挑战主要集中在两个方面。首先，解决长时推理问题需要模型具备跨越长时间跨度的推理能力，这对当前的AI模型提出了严峻的挑战。其次，在构建过程中，生成多样化和复杂的环境状态以及代理行为，确保数据集的多样性和代表性，是一个技术难题。此外，如何有效地整合和利用多模态证据，以提高推理的准确性和鲁棒性，也是该数据集需要克服的重要挑战。

常用场景

经典使用场景

MARPLE数据集的经典使用场景在于评估模型在长时间跨度推理中的能力，特别是在多模态证据下的‘whodunit’类型问题。通过模拟家庭环境中的代理交互，数据集支持视觉、语言和听觉刺激，并生成程序化的环境和代理行为。研究者可以利用该数据集测试AI模型在逐步回放实际发生事件的基础上，推断出哪个代理导致了环境变化的能力。

衍生相关工作

MARPLE数据集的引入激发了大量相关研究工作，特别是在多模态推理和长时间跨度事件重建领域。例如，有研究者基于MARPLE开发了新的推理算法，结合视觉、语言和听觉信息以提高推理准确性。此外，还有工作探讨了如何利用MARPLE数据集来训练和评估大型语言模型在复杂推理任务中的表现，以及如何通过增强模型的上下文理解能力来改进其推理性能。

数据集最近研究