five

rabbit-hmi/MM-Mind2Web-tilde_test_snapshot_20dist

收藏
Hugging Face2024-07-02 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/rabbit-hmi/MM-Mind2Web-tilde_test_snapshot_20dist
下载链接
链接失效反馈
官方服务:
资源简介:
MultiModal-Mind2Web~是一个用于开发和评估通用网页代理的数据集,包含人类在真实网站上的各种操作轨迹。通过简化原始数据并采用SeeAct的提示和DOM编码技术,将动作生成、定位和推理问题转化为文本生成和多选问题,使其适用于视觉语言模型(VLM)的评估。数据集包含任务描述、提示、HTML内容、候选元素等信息,并提供了初步评估结果和数据集结构。此外,数据集相对于原始Multimodal-Mind2Web有多个改进点,如重新关联原始HTML、标记无效行等。

MultiModal-Mind2Web~ is a dataset proposed by Boyuan et al., designed for the development and evaluation of generalist web agents. It includes various action trajectories of humans on real websites, simplified into sequences of observation-action pairs, and adapted prompting and DOM-encoding techniques from SeeAct to reformulate the problem of action generation, localization, and reasoning into a straightforward text-generation and multiple-choice problem. This makes the dataset viable as a generic evaluation for a vision language model (VLM). The dataset includes task ID, split, step, task description, prompts (prompt_0 and prompt_1), raw and cleaned HTML, candidates, target elements, target operation and its value, website information, and validity flags. Additionally, the dataset addresses issues from the original Multimodal-Mind2Web dataset, such as missing screenshots and ground truth elements, and improves by simplifying DOM element representation and providing detailed example comparisons.
提供机构:
rabbit-hmi
原始信息汇总

MultiModal-Mind2Web~ 数据集概述

基本信息

  • 许可证: OpenRail
  • 任务类别:
    • 文本生成
    • 多项选择
  • 语言: 英语
  • 标签:
    • web agent
    • agent
  • 数据集名称: MultiModal-Mind2Web~ (test split, snapshot with seed 42, 20 distractors)
  • 数据集规模: 1K<n<10K

数据集描述

MultiModal-Mind2Web~ 是一个由 Boyuan 等人提出的数据集,旨在用于开发和评估通用网页代理。该数据集包含人类在真实网站上的各种动作轨迹。数据集通过简化原始的 Multimodal-Mind2Web 和 Mind2Web 数据,将其转化为观察-动作对的序列,并采用 SeeAct 的提示和 DOM 编码技术,将动作生成、定位和推理问题重新表述为文本生成和多项选择问题。

数据集结构

  • task_id: 每个任务的唯一ID,等同于 Multimodal-Mind2Web 中的 annotation_id
  • split: 数据集分割,包括 test_website, test_task, test_domain,等同于 Multimodal-Mind2Web 中的分割。
  • step: 步骤索引,表示该动作在轨迹中的位置,等同于 Multimodal-Mind2Web 中的 target_action_index
  • task_description: 任务描述,表示用户意图,等同于 Multimodal-Mind2Web 中的 confirmed_task
  • prompt_0: 用于生成动作描述的提示,包含图像输入。
  • prompt_1: 用于执行动作和元素定位的提示,与 prompt_0 和 VLM 的输出结合使用。
  • raw_html: 动作执行前的原始网页 HTML,与 Mind2Web 的原始数据一致。
  • cleaned_html: 动作执行前的净化网页 HTML,类似于 Multimodal-Mind2Web 中的 cleaned_html
  • candidates: 采样的净化 HTML 表示的候选 DOM 元素,一个元素属于 pos_candidates,其余属于 neg_candidates
  • target_elements: 网页中可执行动作的 DOM 元素的净化 HTML 表示,所有元素可在 Multimodal-Mind2Web 的 pos_candidates 中找到。
  • target_op: 应执行的操作,必须是 CLICK, TYPE, SELECT 之一,等同于 Multimodal-Mind2Web 中的 operation.op
  • target_op_value: 应执行操作的参数,可能为空,等同于 Multimodal-Mind2Web 中的 operation.value
  • website: 网站名称,等同于 Multimodal-Mind2Web 中的 website
  • domain: 网站域名,等同于 Multimodal-Mind2Web 中的 website
  • subdomain: 网站子域名,等同于 Multimodal-Mind2Web 中的 website
  • is_valid: 该行是否有效用于评估,无效行在计算性能时应排除。

改进点

  1. 重新关联每个动作与原始 HTML,解决了原始数据集中 raw_html 不可用的问题。
  2. 标记了没有截图的行,确保评估的完整性。
  3. 标记了没有真实元素的行,确保评估的完整性。
  4. 简化了 DOM 元素的净化表示,如缩短 backend_node_idbnid,并保留更多结构。

假设与问题定义

数据集假设存在一个强大的排序器,通过从负样本池中采样 k 个候选元素,并从正样本池中随机选择一个真实元素来构建候选列表,模拟排序器的存在。

使用场景

MultiModal-Mind2Web~ 可用作通用 VLM 的评估工具,评估其在 UI 理解和规划方面的能力。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作