MARPLE|多模态推理数据集|智能体交互数据集
收藏MARPLE: A Benchmark for Long-Horizon Inference
概述
MARPLE是一个用于评估长时推理能力的基准,基于多模态证据。主要目标是测试模型在日常家庭场景中回答“whodunit”风格问题的能力,例如“谁打开了洗衣机?”。推理问题要求在给定代理的先前行为和环境状态的情况下,从两个潜在嫌疑人中选择正确的代理。
数据集详情
- 任务设置:两个代理A和B分别执行任务,如“洗衣服”和“换衣服”。每个代理必须与环境互动,导致世界的变化并留下其活动的证据。通过选择一个仅属于一个代理轨迹的状态来构建“whodunit”问题。
- 评估性能:推理能力通过正确选择负责查询状态的代理的概率来衡量。更强的模型需要更少的证据,并在早期达到较高的推理准确性。
基准概述
- 任务数量:10个多样化的长时任务,配对创建5个具有挑战性的推理场景。
- 数据集:每个任务包含训练和测试数据集,包括两个训练数据集(每个包含5000个代理轨迹)和一个测试数据集(包含500个多样化的代理轨迹)。
家庭模拟器
- 多模态环境:快速、程序化生成,支持视觉、语言和听觉刺激。
- 分层代理规划器:用于程序化生成多样化的代理行为。
- 人类用户界面:直观的UI,支持与人类的认知科学实验。
推理方法
- 心理模拟与学习代理模型:结合蒙特卡罗树搜索(MCTS)与学习代理策略模型进行心理模拟。
- LLM(GPT-4):要求GPT-4在给定两个连续时间步的视觉观察的情况下,预测哪个代理更有可能引起查询状态。
- 人类基线:人类参与者在给定代理轨迹的并排视觉观察的情况下回答推理问题。
实验结果
- 心理模拟模型:通常比GPT-4实现更高的准确性和一致性,展示了显式执行逐步心理模拟的好处。
- GPT-4:表现具有竞争力,但有时由于其偏向于代理状态的变化而不是环境的变化而无法收敛。
- 人类参与者:提供了强大的性能上限,在给定较少证据的情况下表现优于所有模型,即使没有显著的训练。
结论
MARPLE展示了当前AI模型在利用多模态刺激和执行长时推理方面仍落后于人类。希望MARPLE能够促进进一步的AI和认知科学研究,以弥合复杂现实世界推理场景中人工和人类认知能力之间的差距。

- 1MARPLE: A Benchmark for Long-Horizon Inference斯坦福大学 · 2024年
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录
中国行政区划数据
本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。
github 收录
中国1km分辨率逐月降水量数据集(1901-2023)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
PROSLU
PROSLU数据集是由哈尔滨工业大学社会计算与信息检索研究中心和华为技术有限公司共同创建的,包含超过5000条中文语句,每条语句都配有详细的个人资料信息,如知识图谱、用户资料和上下文感知信息。数据集通过人工标注确保高质量,旨在解决在语义模糊的实际场景中,传统基于文本的口语理解模型可能无法准确识别意图和槽位的问题。该数据集的应用领域主要集中在提高对话系统在复杂环境下的理解和响应能力,特别是在用户意图不明确或语句具有多重含义的情况下。
arXiv 收录