MARPLE|多模态推理数据集|智能体交互数据集

arXiv2024-10-03 更新2024-10-05 收录

多模态推理

智能体交互

下载链接：

https://marple-benchmark.github.io/

下载链接

链接失效反馈

资源简介：

MARPLE是由斯坦福大学开发的一个用于评估长时推理能力的基准数据集。该数据集通过模拟家庭环境中的智能体交互，支持视觉、语言和听觉等多模态证据，旨在测试模型在日常家庭场景中解决“whodunit”类型问题的能力。数据集内容包括多模态观察数据和智能体行为轨迹，通过Mini-BEHAVIOR模拟器生成。创建过程涉及多层次的规划和模拟，以生成多样化的环境和智能体行为。MARPLE主要应用于机器学习和认知科学领域，旨在解决复杂场景中的长时多模态推理问题。

提供机构：

斯坦福大学

创建时间：

2024-10-03

原始信息汇总

MARPLE: A Benchmark for Long-Horizon Inference

概述

MARPLE是一个用于评估长时推理能力的基准，基于多模态证据。主要目标是测试模型在日常家庭场景中回答“whodunit”风格问题的能力，例如“谁打开了洗衣机？”。推理问题要求在给定代理的先前行为和环境状态的情况下，从两个潜在嫌疑人中选择正确的代理。

数据集详情

任务设置：两个代理A和B分别执行任务，如“洗衣服”和“换衣服”。每个代理必须与环境互动，导致世界的变化并留下其活动的证据。通过选择一个仅属于一个代理轨迹的状态来构建“whodunit”问题。
评估性能：推理能力通过正确选择负责查询状态的代理的概率来衡量。更强的模型需要更少的证据，并在早期达到较高的推理准确性。

基准概述

任务数量：10个多样化的长时任务，配对创建5个具有挑战性的推理场景。
数据集：每个任务包含训练和测试数据集，包括两个训练数据集（每个包含5000个代理轨迹）和一个测试数据集（包含500个多样化的代理轨迹）。

家庭模拟器

多模态环境：快速、程序化生成，支持视觉、语言和听觉刺激。
分层代理规划器：用于程序化生成多样化的代理行为。
人类用户界面：直观的UI，支持与人类的认知科学实验。

推理方法

心理模拟与学习代理模型：结合蒙特卡罗树搜索（MCTS）与学习代理策略模型进行心理模拟。
LLM（GPT-4）：要求GPT-4在给定两个连续时间步的视觉观察的情况下，预测哪个代理更有可能引起查询状态。
人类基线：人类参与者在给定代理轨迹的并排视觉观察的情况下回答推理问题。

实验结果

心理模拟模型：通常比GPT-4实现更高的准确性和一致性，展示了显式执行逐步心理模拟的好处。
GPT-4：表现具有竞争力，但有时由于其偏向于代理状态的变化而不是环境的变化而无法收敛。
人类参与者：提供了强大的性能上限，在给定较少证据的情况下表现优于所有模型，即使没有显著的训练。

结论

MARPLE展示了当前AI模型在利用多模态刺激和执行长时推理方面仍落后于人类。希望MARPLE能够促进进一步的AI和认知科学研究，以弥合复杂现实世界推理场景中人工和人类认知能力之间的差距。

AI搜集汇总

数据集介绍

构建方式

MARPLE数据集通过模拟家庭环境中的多模态证据，构建了一个用于评估长时推理能力的基准。该数据集基于Mini-BEHAVIOR模拟器，扩展了其功能以支持自主代理、层次规划器以及视觉、语言和听觉刺激的生成。通过模拟代理与环境的交互，生成多模态证据（视觉、语言和音频），MARPLE能够生成丰富的代理行为和多样化的环境状态。

特点

MARPLE数据集的特点在于其长时推理任务的设计，这些任务要求模型在复杂的日常场景中进行多模态推理。数据集支持视觉、语言和听觉刺激，并提供了多样化的训练和推理数据。此外，MARPLE还定义了评估推理任务的指标，确保了数据集在机器学习和认知科学研究中的实用性。

使用方法

MARPLE数据集适用于开发和评估事件重建和多模态推理的机器学习模型。研究者可以使用该数据集训练模型，以预测代理的目标或行为，并推断环境状态的变化。数据集提供了预先收集的数据和评估指标，便于研究人员快速上手并进行系统性的实验。此外，MARPLE还支持人类实验，为建立性能基准提供了参考。

背景与挑战

背景概述

MARPLE数据集由斯坦福大学的研究人员于2024年创建，旨在评估长时推理能力。该数据集的核心研究问题是如何基于多模态证据（视觉、语言和听觉）进行长时推理，以重建过去的事件。MARPLE通过模拟家庭环境中的代理交互，支持视觉、语言和听觉刺激，并生成程序化的环境和代理行为。其灵感来源于经典的“whodunit”故事，要求AI模型和人类参与者根据实际发生的事件逐步回放，推断出哪个代理导致了环境的变化。该数据集的引入填补了现有基准在复杂日常场景中长时多模态推理评估的空白，对人工智能和认知科学领域具有重要影响。

当前挑战

MARPLE数据集面临的挑战主要集中在两个方面。首先，解决长时推理问题需要模型具备跨越长时间跨度的推理能力，这对当前的AI模型提出了严峻的挑战。其次，在构建过程中，生成多样化和复杂的环境状态以及代理行为，确保数据集的多样性和代表性，是一个技术难题。此外，如何有效地整合和利用多模态证据，以提高推理的准确性和鲁棒性，也是该数据集需要克服的重要挑战。

常用场景

经典使用场景

MARPLE数据集的经典使用场景在于评估模型在长时间跨度推理中的能力，特别是在多模态证据下的‘whodunit’类型问题。通过模拟家庭环境中的代理交互，数据集支持视觉、语言和听觉刺激，并生成程序化的环境和代理行为。研究者可以利用该数据集测试AI模型在逐步回放实际发生事件的基础上，推断出哪个代理导致了环境变化的能力。

衍生相关工作

MARPLE数据集的引入激发了大量相关研究工作，特别是在多模态推理和长时间跨度事件重建领域。例如，有研究者基于MARPLE开发了新的推理算法，结合视觉、语言和听觉信息以提高推理准确性。此外，还有工作探讨了如何利用MARPLE数据集来训练和评估大型语言模型在复杂推理任务中的表现，以及如何通过增强模型的上下文理解能力来改进其推理性能。

数据集最近研究

相关研究论文

1
MARPLE: A Benchmark for Long-Horizon Inference斯坦福大学 · 2024年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

Figshare

Figshare是一个在线数据共享平台，允许研究人员上传和共享各种类型的研究成果，包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2024）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 74 年（1951~2024 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。

国家青藏高原科学数据中心收录

GlobalBuildingAtlas

GlobalBuildingAtlas是一个公开的全球建筑数据集，提供了全球范围内的建筑多边形、高度和LoD1 3D模型。该数据集是第一个提供高质量的、一致的、完整的建筑数据，以2D和3D形式在单个建筑层面上进行全球覆盖的公开数据集。数据集包括2.75亿座建筑，比目前最全面的数据库多出超过10亿座建筑。GBA.Height提供了迄今为止最详细和最准确的全球3D建筑高度图，实现了3×3米的空间分辨率，比以前的全球产品（90米）精细30倍，能够在本地和全球范围内对建筑体积进行高分辨率和可靠的分析。GBA.LoD1代表了第一个完整的全球LoD1建筑模型，包括2.68亿个建筑实例，具有预测的高度，即高度完整性超过97%，在不同大陆上实现了从1.5米到8.9米的RMSEs。GlobalBuildingAtlas以其高度精度、全面的全球覆盖和丰富的空间细节，为全球建筑现状提供了新的见解，开辟了前所未有的地理空间分析可能性，例如更好地说明人们居住在哪里，以及更全面地监测联合国第11个可持续发展目标的进展。

arXiv 收录

中国陆域及周边逐日1km全天候地表温度数据集（TRIMS LST；2000-2024）

地表温度（Land surface temperature, LST）是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现，又对于地气过程具有复杂的反馈作用。因此，地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提，还是众多模型的直接输入参数，在许多领域有广泛的应用，如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化，学术界对卫星遥感的全天候地表温度（All-weather LST）具有迫切的需求。本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据，辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性，最终重建得到较高质量的全天候地表温度数据集。评价结果表明，本数据集具有良好的图像质量和精度，不仅在空间上无缝，还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时，该数据集在白天和夜间的平均偏差（MBE）为0.09K和-0.03K，偏差标准差（STD）为1.45K和1.17K。基于19个站点实测数据的检验结果表明，其MBE为-2.26K至1.73K，RMSE为0.80K至3.68K，且在晴空与非晴空条件下无显著区别。本数据集的时间分辨率为逐日4次，空间分辨率为1km，时间跨度为2000年-2024年；空间范围包括我国陆域的主要区域（包含港澳台地区，暂不包含我国南海诸岛）及周边区域（72°E-135°E，19°N-55°N）。本数据集的缩写名为TRIMS LST（Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST），以便用户使用。需要说明的是，TRIMS LST的空间子集TRIMS LST-TP（中国西部逐日1 km全天候地表温度数据集（TRIMS LST-TP；2000-2024）V2）同步在国家青藏高原科学数据中心发布，以减少相关用户数据下载和处理的工作量。

国家青藏高原科学数据中心收录

2022_长沙市标准地图行政区划示意版32开

基于湖南省基础地理信息数据库，依据湖南省行政区划界线标准画法和最新境界、标准地名成果，采用其他自然地理要素和人文专题要素的现势性资料编制而成。

湖南大数据交易所收录