MM-Mind2Web-test

Hugging Face2025-07-23 更新2025-07-24 收录

下载链接：

https://huggingface.co/datasets/mlfoundations-cua-dev/MM-Mind2Web-test

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用户行为相关的多种信息，如行为唯一标识、注释标识、候选位置、清理后的HTML内容等。数据集中的字段包括字符串、图像、浮点数序列、整数序列等类型。此外，数据集还提供了训练集的划分、示例数量和大小等信息。

创建时间：

2025-07-21

原始信息汇总

数据集概述

基本信息

数据集名称: MM-Mind2Web-test
存储位置: https://huggingface.co/datasets/mlfoundations-cua-dev/MM-Mind2Web-test
下载大小: 6,279,396,334 字节
数据集大小: 8,047,856,347.224 字节

数据集结构

特征字段:
- action_uid: 字符串类型，表示动作的唯一标识符
- annotation_id: 字符串类型，表示注释的唯一标识符
- pos_candidates: 字符串序列，表示可能的候选动作
- cleaned_html: 字符串类型，表示清理后的HTML内容
- target_action_index: 字符串类型，表示目标动作的索引
- target_action_reprs: 字符串类型，表示目标动作的表示
- screenshot: 图像类型，表示屏幕截图
- confirmed_task: 字符串类型，表示确认的任务
- role_or_tag: 字符串类型，表示角色或标签
- text: 字符串类型，表示文本内容
- action_type: 字符串类型，表示动作类型
- action_arg: 字符串类型，表示动作参数
- backend_node_id: 字符串类型，表示后端节点ID
- bounding_box: 浮点64序列，表示边界框坐标
- center_coords: 整数64序列，表示中心坐标
- image_size: 整数64序列，表示图像尺寸
- viewport_coords: 浮点64序列，表示视口坐标
- viewport_size: 浮点64序列，表示视口尺寸
- cropped_screenshot: 图像类型，表示裁剪后的屏幕截图
- normalized_coords: 整数64序列，表示归一化坐标
- action_string: 字符串类型，表示动作字符串
- messages: 列表类型，包含content（字符串类型）和role（字符串类型）字段

数据划分

训练集:
- 样本数量: 7,138
- 数据大小: 8,047,856,347.224 字节
- 数据文件路径: data/train-*

配置信息

默认配置:
- 配置名称: default
- 数据文件: 训练集路径为data/train-*

搜集汇总

数据集介绍

构建方式

在网页交互智能体研究领域，MM-Mind2Web-test数据集通过系统化采集真实网页环境中的多模态交互数据构建而成。该数据集采用自动化爬虫技术与人工标注相结合的方式，精确记录用户在网页上的操作序列，包括点击、输入等行为，并同步捕获对应的HTML结构、屏幕截图以及操作元素的视觉特征。每个数据样本均包含完整的交互上下文信息，通过统一标识符(action_uid)确保操作轨迹的可追溯性，同时采用标准化坐标体系(normalized_coords)实现跨设备交互数据的空间对齐。

特点

该数据集最显著的特征在于其多模态数据融合架构，将结构化网页元素(cleaned_html)、视觉信息(screenshot/cropped_screenshot)和语义描述(action_string)有机整合。特有的候选操作序列(pos_candidates)字段为智能体决策提供对比基准，而细粒度的元素定位信息(bounding_box/center_coords)则支持精确的空间推理。数据集覆盖7138个真实网页交互实例，每个实例包含完整的对话上下文(messages)和验证任务(confirmed_task)，为研究网页导航、表单填写等复杂任务提供丰富素材。

使用方法

研究者可通过加载标准化的HuggingFace数据集接口直接访问该资源，其结构化特征设计兼容主流机器学习框架。典型应用场景包括：基于HTML结构和屏幕截图的跨模态表示学习，利用action_type和action_arg字段训练交互动作预测模型，或通过pos_candidates实现对比学习。数据预处理时需注意视觉特征的归一化处理，建议结合viewport_size字段进行坐标转换。训练验证划分可直接采用内置的train分割，其中包含的丰富元数据支持多种评估协议的构建。

背景与挑战

背景概述

MM-Mind2Web-test数据集作为多模态网络交互研究领域的重要资源，由前沿研究团队于近年构建，旨在推动智能代理在复杂网络环境中的行为理解与决策能力。该数据集整合了网页结构信息（HTML）、视觉元素（截图）以及用户操作序列，为研究人机交互、网页导航自动化等核心问题提供了丰富的数据支持。其创新性地将视觉与结构信息融合，显著提升了模型对动态网页内容的理解深度，对网络智能体的研发具有里程碑意义。

当前挑战

该数据集面临双重挑战：在领域问题层面，网页元素的动态加载与异构结构导致动作意图识别准确率难以突破，多模态对齐（如HTML节点与截图区域的匹配）存在显著误差；在构建过程中，需解决大规模网页操作日志的隐私脱敏问题，同时人工标注跨模态数据时面临视觉元素与代码结构关联复杂、标注一致性难以维持等困难。

常用场景

经典使用场景

在智能人机交互领域，MM-Mind2Web-test数据集为研究者提供了丰富的多模态交互数据，包含网页操作序列、视觉元素和文本指令。该数据集最经典的使用场景是训练和评估基于多模态输入的网页导航智能体，通过结合HTML结构、屏幕截图和自然语言指令，模拟真实用户与网页的交互过程。这种多模态融合方法显著提升了智能体在复杂网页环境中理解意图和执行动作的准确性。

实际应用

在实际应用层面，MM-Mind2Web-test数据集支撑了智能网页助手和自动化测试工具的研发。基于该数据集训练的模型可应用于无障碍浏览辅助系统，帮助视障用户通过语音指令完成在线操作。电子商务领域利用其开发智能购物代理，能够根据用户描述自动完成商品搜索和下单流程。数据集中丰富的跨网站交互数据也为跨领域迁移学习提供了重要基础。

衍生相关工作

该数据集催生了一系列创新研究，包括基于视觉语言的网页元素定位算法、多模态动作预测框架和交互式强化学习系统。相关工作如WebN-T5通过结合HTML解析和视觉特征实现了端到端网页操作，MindAct框架则探索了记忆增强型智能体在长流程任务中的应用。这些衍生工作不断拓展着多模态网页理解的边界，形成了完整的技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集