MARPLE|多模态推理数据集|智能体交互数据集
收藏MARPLE: A Benchmark for Long-Horizon Inference
概述
MARPLE是一个用于评估长时推理能力的基准,基于多模态证据。主要目标是测试模型在日常家庭场景中回答“whodunit”风格问题的能力,例如“谁打开了洗衣机?”。推理问题要求在给定代理的先前行为和环境状态的情况下,从两个潜在嫌疑人中选择正确的代理。
数据集详情
- 任务设置:两个代理A和B分别执行任务,如“洗衣服”和“换衣服”。每个代理必须与环境互动,导致世界的变化并留下其活动的证据。通过选择一个仅属于一个代理轨迹的状态来构建“whodunit”问题。
- 评估性能:推理能力通过正确选择负责查询状态的代理的概率来衡量。更强的模型需要更少的证据,并在早期达到较高的推理准确性。
基准概述
- 任务数量:10个多样化的长时任务,配对创建5个具有挑战性的推理场景。
- 数据集:每个任务包含训练和测试数据集,包括两个训练数据集(每个包含5000个代理轨迹)和一个测试数据集(包含500个多样化的代理轨迹)。
家庭模拟器
- 多模态环境:快速、程序化生成,支持视觉、语言和听觉刺激。
- 分层代理规划器:用于程序化生成多样化的代理行为。
- 人类用户界面:直观的UI,支持与人类的认知科学实验。
推理方法
- 心理模拟与学习代理模型:结合蒙特卡罗树搜索(MCTS)与学习代理策略模型进行心理模拟。
- LLM(GPT-4):要求GPT-4在给定两个连续时间步的视觉观察的情况下,预测哪个代理更有可能引起查询状态。
- 人类基线:人类参与者在给定代理轨迹的并排视觉观察的情况下回答推理问题。
实验结果
- 心理模拟模型:通常比GPT-4实现更高的准确性和一致性,展示了显式执行逐步心理模拟的好处。
- GPT-4:表现具有竞争力,但有时由于其偏向于代理状态的变化而不是环境的变化而无法收敛。
- 人类参与者:提供了强大的性能上限,在给定较少证据的情况下表现优于所有模型,即使没有显著的训练。
结论
MARPLE展示了当前AI模型在利用多模态刺激和执行长时推理方面仍落后于人类。希望MARPLE能够促进进一步的AI和认知科学研究,以弥合复杂现实世界推理场景中人工和人类认知能力之间的差距。

- 1MARPLE: A Benchmark for Long-Horizon Inference斯坦福大学 · 2024年
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
中国区域地面气象要素驱动数据集 v2.0(1951-2024)
中国区域地面气象要素驱动数据集(China Meteorological Forcing Data,以下简称 CMFD)是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素,时间分辨率为 3 小时,水平空间分辨率为 0.1°,时间长度为 74 年(1951~2024 年),覆盖了 70°E~140°E,15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据,并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品,其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展,其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本,而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集,但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外,在制作 CMFD 2.0 的过程中,研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息,显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时,CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 74 年,并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同,但其有效数据扩展到了中国之外,能够更好地支持跨境区域研究。为方便用户使用,CMFD 2.0 还在基础变量集之外提供了若干衍生变量,包括近地面相对湿度、雨雪分离降水产品等。此外,CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术,转而直接将实型数据压缩存储于 NetCDF4 格式文件中,从而消除了用户使用数据时进行解压换算的困扰。 本数据集原定版本号为 1.7,但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变,故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致,仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新,以修正其长期趋势存在的问题。
国家青藏高原科学数据中心 收录
GlobalBuildingAtlas
GlobalBuildingAtlas是一个公开的全球建筑数据集,提供了全球范围内的建筑多边形、高度和LoD1 3D模型。该数据集是第一个提供高质量的、一致的、完整的建筑数据,以2D和3D形式在单个建筑层面上进行全球覆盖的公开数据集。数据集包括2.75亿座建筑,比目前最全面的数据库多出超过10亿座建筑。GBA.Height提供了迄今为止最详细和最准确的全球3D建筑高度图,实现了3×3米的空间分辨率,比以前的全球产品(90米)精细30倍,能够在本地和全球范围内对建筑体积进行高分辨率和可靠的分析。GBA.LoD1代表了第一个完整的全球LoD1建筑模型,包括2.68亿个建筑实例,具有预测的高度,即高度完整性超过97%,在不同大陆上实现了从1.5米到8.9米的RMSEs。GlobalBuildingAtlas以其高度精度、全面的全球覆盖和丰富的空间细节,为全球建筑现状提供了新的见解,开辟了前所未有的地理空间分析可能性,例如更好地说明人们居住在哪里,以及更全面地监测联合国第11个可持续发展目标的进展。
arXiv 收录
中国陆域及周边逐日1km全天候地表温度数据集(TRIMS LST;2000-2024)
地表温度(Land surface temperature, LST)是地球表面与大气之间界面的重要参量之一。它既是地表与大气能量交互作用的直接体现,又对于地气过程具有复杂的反馈作用。因此,地表温度不仅是气候变化的敏感指示因子和掌握气候变化规律的重要前提,还是众多模型的直接输入参数,在许多领域有广泛的应用,如气象气候、环境生态、水文等。伴随地学及相关领域研究的深入和精细化,学术界对卫星遥感的全天候地表温度(All-weather LST)具有迫切的需求。 本数据集的制备方法是增强型的卫星热红外遥感-再分析数据集成方法。方法的主要输入数据为Terra/Aqua MODIS LST产品和GLDAS等数据,辅助数据包括卫星遥感提供的植被指数、地表反照率等。方法充分利用了卫星热红外遥感和再分析数据提供的地表温度高频分量、低频分量以及地表温度的空间相关性,最终重建得到较高质量的全天候地表温度数据集。 评价结果表明,本数据集具有良好的图像质量和精度,不仅在空间上无缝,还与当前学术界广泛采用的逐日1 km Terra/Aqua MODIS LST产品在幅值和空间分布上具有较高的一致性。当以MODIS LST为参考时,该数据集在白天和夜间的平均偏差(MBE)为0.09K和-0.03K,偏差标准差(STD)为1.45K和1.17K。基于19个站点实测数据的检验结果表明,其MBE为-2.26K至1.73K,RMSE为0.80K至3.68K,且在晴空与非晴空条件下无显著区别。 本数据集的时间分辨率为逐日4次,空间分辨率为1km,时间跨度为2000年-2024年;空间范围包括我国陆域的主要区域(包含港澳台地区,暂不包含我国南海诸岛)及周边区域(72°E-135°E,19°N-55°N)。本数据集的缩写名为TRIMS LST(Thermal and Reanalysis Integrating Moderate-resolution Spatial-seamless LST),以便用户使用。需要说明的是,TRIMS LST的空间子集TRIMS LST-TP(中国西部逐日1 km全天候地表温度数据集(TRIMS LST-TP;2000-2024)V2)同步在国家青藏高原科学数据中心发布,以减少相关用户数据下载和处理的工作量。
国家青藏高原科学数据中心 收录
2022_长沙市标准地图行政区划示意版32开
基于湖南省基础地理信息数据库,依据湖南省行政区划界线标准画法和最新境界、标准地名成果,采用其他自然地理要素和人文专题要素的现势性资料编制而成。
湖南大数据交易所 收录