minibench-multimodal-mind2web

Hugging Face2025-04-10 更新2025-04-11 收录

下载链接：

https://huggingface.co/datasets/WPRM/minibench-multimodal-mind2web

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了网页操作的详细信息，如操作唯一标识符、原始和清理后的HTML内容、操作类型、正负候选元素、网站相关信息、标注ID、任务确认情况、屏幕截图、操作表示、目标动作索引、目标动作表示、从清理后的HTML生成的axtree字符串、带有选择出价信息的axtree字符串、出价候选axtree、可见出价、包含在可见出价中的过滤出价、截图中可见的axtree、问题、目标、目标动作HTML、目标动作出价字符串、原始Mind2Web指令、裁剪坐标、可见元素计数、裁剪中目标元素是否可见、裁剪屏幕截图、 SOM覆盖图、带有出价候选的SOM覆盖图、包含在候选出价中的目标元素、包含在出价选择中的目标元素等。数据集分为测试网站、测试域和测试任务三个部分。

创建时间：

2025-04-09

搜集汇总

数据集介绍

构建方式

minibench-multimodal-mind2web数据集通过系统化的网络爬取与人工标注相结合的方式构建，覆盖多样化的网页操作场景。研究团队从实际网页中提取原始HTML与清理后的HTML结构，同时捕捉操作动作的视觉表征，包括屏幕截图与裁剪区域。每个样本均标注了正向与负向候选元素，并记录了操作类型、网站域名等元数据，通过多维度注释确保数据质量。

特点

该数据集以多模态特性著称，融合了网页结构信息与视觉内容，包含原始HTML、清理HTML及对应的屏幕截图。独特的操作动作表征与候选元素标注为研究网页交互提供了丰富素材。数据覆盖多个测试分割（网站、域名、任务），每个样本附带详细的操作描述与目标定位信息，支持复杂的网页理解任务。通过可见元素过滤与坐标裁剪，实现了对局部交互区域的精准标注。

使用方法

研究者可利用该数据集训练或评估多模态网页理解模型，通过HTML结构与视觉内容的联合分析预测用户操作。测试分割支持不同泛化能力的验证：网站级测试检验模型对新站点的适应力，域名级评估跨领域性能，任务级则聚焦特定交互场景。内置的候选元素标注可用于负采样或对比学习，而操作描述字段可作为自然语言监督信号。屏幕截图与裁剪区域为视觉-结构对齐研究提供了理想素材。

背景与挑战

背景概述

minibench-multimodal-mind2web数据集是近年来在多模态交互领域涌现的重要资源，由前沿研究团队构建，旨在推动网页自动化任务的理解与执行。该数据集聚焦于网页操作的多模态表征，整合了HTML结构、视觉截图及操作指令等多元信息，为研究人机交互中的复杂决策过程提供了丰富素材。其核心研究问题在于如何通过多模态学习实现网页操作的精准预测与执行，对智能代理、自动化测试等领域的算法研发具有显著推动作用。

当前挑战

该数据集面临的挑战主要体现在两方面：领域问题层面，网页操作的多样性与动态性导致模型需同时处理结构布局、视觉元素和语义指令的异构关联，对多模态融合技术提出极高要求；构建过程层面，原始网页数据的噪声过滤、操作意图的标准化标注以及跨网站泛化能力的保障，均需耗费大量人工校验与算法设计。此外，如何平衡数据规模与标注质量，确保模型在真实场景中的鲁棒性，仍是亟待突破的难点。

常用场景

经典使用场景

在跨模态人机交互研究中，minibench-multimodal-mind2web数据集为探索网页操作任务中的视觉-语言联合理解提供了标准测试平台。其多模态特性支持同时处理HTML结构、屏幕截图和自然语言指令，使得研究者能够构建端到端的网页导航智能体，模拟真实用户完成点击、输入等交互行为。

实际应用

实际应用中，该数据集支撑了智能网页助手和自动化测试工具的研发。基于其构建的模型可理解用户自然语言指令并精准定位网页元素，在电商导购、政务服务平台等场景实现无障碍交互。其包含的跨网站泛化测试数据特别适用于评估系统在未见过的网页布局中的适应能力。

衍生相关工作

围绕该数据集衍生的经典工作包括MindAct框架和WebGUM系统，前者提出了分层注意力机制解决跨模态元素定位问题，后者创新性地将图形神经网络应用于网页操作预测。这些成果在ACL、WWW等顶会发表，推动了人机交互与程序语义理解领域的交叉创新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集