MMInA
收藏arXiv2024-04-16 更新2024-06-21 收录
下载链接:
https://mmina.cliangyu.com
下载链接
链接失效反馈官方服务:
资源简介:
MMInA是由南洋理工大学S-Lab创建的多跳多模态基准数据集,包含1050个涉及14个不同网站的真实世界任务。数据集旨在评估智能体在复杂互联网任务中的表现,特别是处理跨多个网站的信息提取和操作。MMInA强调了在现实环境中进行评估的重要性,并提出了新的评估协议,以更全面地衡量智能体在多跳任务中的表现。此外,数据集还引入了记忆增强方法,以提高智能体在处理复杂任务时的性能。
MMInA is a multi-hop multimodal benchmark dataset created by S-Lab at Nanyang Technological University. It contains 1050 real-world tasks spanning 14 distinct websites. This dataset aims to evaluate the performance of AI Agents in complex Internet tasks, particularly information extraction and manipulation across multiple websites. MMInA emphasizes the importance of conducting evaluations in realistic environments, and proposes novel evaluation protocols to more comprehensively measure AI Agents' performance on multi-hop tasks. Additionally, the dataset introduces memory-augmented methods to enhance AI Agents' performance when handling complex tasks.
提供机构:
南洋理工大学S-Lab
创建时间:
2024-04-16
搜集汇总
数据集介绍

构建方式
在构建MMInA数据集时,研究团队立足于真实且动态演化的互联网环境,精心设计了1,050项由人工撰写的多跳多模态任务。这些任务覆盖购物、旅行、信息检索等14个不同领域的真实网站,平均每个任务需跨越2.85个网站节点并执行12.9次操作。数据集的构建过程强调对网页多模态内容(包括文本和图像)的自动化提取,通过可访问性树结构统一表征网页布局,并下载关联图像以供智能体观察,从而在高度仿真的环境中评估智能体的跨网站序列推理与交互能力。
特点
MMInA数据集的核心特点在于其多跳性与多模态的深度融合。该数据集不仅要求智能体处理文本与视觉信息以完成单一任务步骤,更引入了跨网站的长序列任务,模拟用户在实际互联网操作中需在多个站点间跳转以达成复杂目标的真实场景。其任务设计自然组合,涵盖信息寻求与执行操作双重意图,且依托于持续更新的真实网站,确保了评估环境的动态性与实用性。这些特性共同使MMInA成为一个更具挑战性且贴近现实应用的基准测试平台。
使用方法
使用MMInA数据集时,研究者通常将网页环境建模为部分可观测马尔可夫决策过程。智能体在每个时间步接收包括任务描述、网页可访问性树及关联图像在内的多模态观察,随后从12类概括性动作中选择执行,如点击、滚动或输入。评估采用分层协议:单跳任务通过关键词匹配或语言模型模糊匹配判定步骤成功;多跳任务则要求智能体按顺序成功完成所有子步骤,整体任务成功与否取决于每一步的累积通过。该框架支持对智能体的跨网站规划、多模态理解及长程推理能力进行系统化评测。
背景与挑战
背景概述
在人工智能领域,构建能够自主导航并完成复杂任务的具身智能体是一项长期挑战,尤其在涉及真实互联网环境的多媒体网站交互方面。为填补现有基准在评估智能体于动态、多跳跨网站场景下能力的空白,南洋理工大学S-Lab的研究团队于2024年提出了MMInA基准。该数据集聚焦于多跳多模态互联网任务,核心研究问题在于评估智能体在真实、演化的网页环境中,通过整合视觉与文本信息,完成组合式用户指令的能力。MMInA包含1,050项人工编写的任务,覆盖购物、旅行等多样领域,平均每项任务需跨越2.85个网站并执行12.9次操作,其构建基于14个持续更新的真实网站,显著提升了评估的 realism 与实用性,对推动具身智能体在开放网络环境中的研究具有重要影响力。
当前挑战
MMInA所针对的核心领域问题是多跳多模态互联网任务的高效完成,其挑战主要体现在智能体的长程推理与跨模态整合能力不足。实验表明,即使是最先进的多模态模型如GPT-4V,在整体任务成功率上仅为21.8%,远低于人类表现的96.3%,且随着任务跳数增加,智能体在早期跳步的失败率显著上升,反映出其在复杂序列决策与状态维持上的薄弱。在数据集构建过程中,挑战主要源于真实网络环境的动态性与复杂性:首先,需确保从受保护机制的网页中可靠提取多模态内容(如图像),部分网站因此只能采用离线或开源版本;其次,设计自然且需跨网站协作的组合任务要求精细的语义分解与流程规划,以准确模拟用户真实操作轨迹,这对任务编写的严谨性与覆盖度提出了较高要求。
常用场景
经典使用场景
在自主智能体研究领域,评估多模态多跳推理能力已成为关键挑战。MMInA数据集通过构建包含1050项人类编写的多跳任务,覆盖购物、旅行、维基百科等14个真实且动态更新的网站,为研究者提供了模拟复杂互联网浏览行为的标准化测试平台。其经典使用场景在于系统化评估智能体在跨网站、多步骤任务中整合视觉与文本信息的能力,例如要求智能体在电商平台对比商品外观后,转向旅游网站预订行程,最终在社交媒体分享结果。这一场景深刻反映了现实世界中用户需在多平台间协同完成复合任务的普遍需求。
解决学术问题
MMInA数据集主要解决了自主智能体研究中的两大核心学术问题:一是传统基准测试局限于单网站、单模态任务,难以评估智能体在真实动态网络环境中的长程规划与多模态推理能力;二是缺乏对多跳跨网站任务完成度的细粒度评估方法。该数据集通过引入基于跳数的整体评估协议,量化智能体在每一跳中的表现,揭示了智能体在长链任务中早期跳失败率上升的关键瓶颈。其意义在于推动了多模态智能体从单一指令响应向复杂环境交互的范式转变,为开发具备人类级互联网使用能力的通用智能体奠定了实证基础。
衍生相关工作
MMInA数据集催生了一系列围绕多模态多跳智能体的创新研究。其提出的记忆增强方法通过回放历史动作轨迹提升智能体的程序性记忆,启发了后续工作如TravelPlanner对长程规划工具的集成、Mobile-Agent在移动端视觉感知的扩展。数据集的评估协议也被OmniACT等基准采纳,用于衡量智能体在跨平台任务中的泛化能力。同时,其揭示的早期跳脆弱性问题推动了如DUAL-VCR等研究对网页元素上下文表征的优化,以及SeeClick等纯视觉GUI智能体对跨模态 grounding 技术的探索,共同促进了自主智能体在复杂数字环境中的演进。
以上内容由遇见数据集搜集并总结生成



