shulin16/mmina

Name: shulin16/mmina
Creator: shulin16
Published: 2024-06-12 20:02:41
License: 暂无描述

Hugging Face2024-06-12 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/shulin16/mmina

下载链接

链接失效反馈

官方服务：

资源简介：

MMInA数据集是一个用于评估多跳多模态互联网任务的基准数据集。该数据集包含6个文件夹，共1,050个多跳任务，覆盖14个不断演变的网站。每个任务都提供了意图和参考答案的JSON文件，以及所需的信息。数据集分为多个子文件夹，每个文件夹包含不同跳数的任务，如2跳、3跳、5跳、6跳、7跳、8跳、9跳、10跳等。数据集的主要用途是评估大型语言模型（LLM）代理在多跳多模态任务中的工具使用能力。

提供机构：

shulin16

原始信息汇总

MMInA: Benchmarking Multihop Multimodal Internet Agents Dataset

数据集详情

MMInA是一个用于评估实体代理执行组合式互联网任务的多跳和多模态基准数据集。该数据集包含6个文件夹，涉及1,050个多跳任务，跨越14个不断演变的网站。每个任务的意图和参考答案以JSON文件形式提供，同时包含所需信息。

数据集子文件夹说明

normal: 包含176个任务，均为2跳或3跳任务。
multi567: 包含180个任务，均为5跳、6跳、7跳任务。
compare: 包含100个任务，部分为2跳、3跳、4跳任务。所有任务需要先回答一个可比较的问题。
multipro: 包含86个任务，均为8跳、9跳、10跳任务。
shopping: 包含200个任务，所有任务涉及OneStopMarket中的商品。
wikipedia: 包含308个任务，所有任务限定在维基百科内。部分为可比较任务，其他为简单任务（其中108个任务从WebQA过滤而来）。

数据集字段说明

task_id: 表示任务在当前文件夹中的位置。
start_url: 提供给代理的初始网页。
intent 和 intent_template: 任务的核心部分，第一部分说明每跳的最终状态，第二部分是解决任务的参考URL，第三部分是问题。
procedure: 指多跳任务中使用的评估方法（如论文所述）。
eval_types: 单跳任务的评估方法，并提供参考答案。

数据集来源

Repository: https://github.com/shulin16/MMInA
Paper: https://arxiv.org/abs/2404.09992

使用场景

该数据集旨在评估大型语言模型（LLM）代理在多跳多模态任务中的工具使用能力。

直接使用

使用此数据集时，应首先选择模型（LLM或VLM）作为代码格式的代理，并在预设环境中实现。可以使用此数据集和环境来评估代理在组合式多跳互联网任务中的能力。

超出范围的使用

该数据集仅作为评估基准，不适用于训练代理模型。

偏差、风险和限制

该数据集存在以下限制：

维基百科相关问题的评估定义不明确，由于LLM/VLM的可解释性问题。

引用

BibTeX:

@misc{zhang2024mmina, title={MMInA: Benchmarking Multihop Multimodal Internet Agents}, author={Ziniu Zhang and Shulin Tian and Liangyu Chen and Ziwei Liu}, year={2024}, eprint={2404.09992}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

在互联网智能体研究领域，MMInA数据集通过精心设计的任务结构，构建了一个多跳多模态的评估基准。该数据集从14个动态演进的网站中提取了1,050个任务，并依据任务复杂度与类型划分为六个子文件夹。每个任务均以JSON格式封装，明确提供了起始URL、任务意图模板及参考答案，其中意图模板详细描述了每个跳转步骤的预期状态与参考链接，确保了任务目标的清晰性与可追溯性。数据构建过程注重任务的组合性与真实性，部分任务源自现有基准如WebQA的筛选与重构，从而在多样化的网络环境中形成了层次分明的评估体系。

使用方法

使用MMInA数据集时，研究者需首先在预设的代码环境中部署所选的大型语言模型或视觉语言模型作为智能体。通过加载数据集中的JSON任务文件，智能体将依据提供的起始URL与意图模板，在模拟或真实的网络环境中执行多跳操作以完成任务。评估过程遵循数据集中定义的流程方法，对于单跳任务则参考其评估类型与参考答案进行度量。该数据集专为评估智能体在组合性多跳互联网任务中的能力而设计，不适用于模型训练，确保了其在性能评测中的专注性与有效性。

背景与挑战

背景概述

在人工智能与具身智能体研究领域，多模态与多跳推理能力的融合已成为评估智能体在复杂互联网环境中执行组合任务的关键前沿。MMInA数据集由张子牛、田树林、陈良宇和刘子威等研究人员于2024年创建，其核心研究问题聚焦于如何系统性地评估大型语言模型或视觉语言模型在动态、多模态网页环境中进行多跳推理与工具使用的能力。该数据集涵盖了14个持续演化的网站，包含1050个多跳任务，通过精心设计的任务结构，如比较性查询与多步骤导航，为智能体在开放网络环境中的组合任务执行提供了标准化基准，显著推动了具身智能体在真实互联网场景下的评估研究。

当前挑战

MMInA数据集所针对的领域挑战在于，现有智能体在应对多模态、多跳互联网任务时，往往难以维持连贯的推理链条与精准的工具调用，尤其是在动态变化的网页内容与复杂用户意图交织的情境下。构建过程中的挑战则体现在任务设计的复杂性上，需确保多跳步骤的逻辑严密性与现实代表性，同时平衡不同任务类型（如购物、维基百科查询）的多样性与难度梯度。此外，数据收集需依托持续演化的真实网站，这引入了网站结构变动带来的标注一致性与任务可复现性难题，而维基百科类任务的评估标准也因大型模型解释性的局限而面临定义上的模糊性。

常用场景

经典使用场景

在具身智能体与多模态交互研究领域，MMInA数据集作为一项多跳多模态基准测试工具，其经典应用场景聚焦于评估大型语言模型或视觉语言模型在复杂互联网任务中的组合推理能力。研究者通过模拟真实网络环境，要求智能体依据文本与视觉信息，执行从简单双跳至复杂十跳的序列化操作，如跨网页信息检索、商品比较或知识验证，从而系统检验模型在动态、多步骤场景下的工具使用与决策效能。

解决学术问题

该数据集有效应对了当前智能体研究中组合任务评估标准缺失的学术挑战。通过构建涵盖14个动态网站、1050项多跳任务的标准化测试集，MMInA为衡量模型在长程推理、跨模态信息融合及环境适应性方面的性能提供了严谨基准。其意义在于推动了具身智能体从单一步骤向多层次、结构化任务解决的范式转变，为多模态代理系统的能力边界刻画与优化方向提供了关键实证依据。

实际应用

在实际应用层面，MMInA所针对的多跳多模态任务模拟了智能助手、自动化客服及信息检索系统在真实互联网环境中的操作需求。例如，在电子商务场景中，智能体需遍历多个商品页面对比参数；在知识查询场景中，则需跨维基百科条目进行事实核查与整合。这些任务直接关联到未来自主化网络工具的开发，为构建能够理解复杂用户指令、执行连贯跨平台操作的实际应用系统奠定了评估基础。

数据集最近研究