allenai/MolmoWeb-SyntheticTrajs
收藏Hugging Face2026-04-10 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/allenai/MolmoWeb-SyntheticTrajs
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: sample_id
dtype: string
- name: instruction
dtype: string
- name: trajectory
dtype: string
- name: images
list:
- name: bytes
dtype: binary
- name: path
dtype: string
configs:
- config_name: from_template
data_files:
- split: train
path: data/from_template-*.parquet
- config_name: task_seeded_wv
data_files:
- split: train
path: data/task_seeded_wv-*.parquet
- config_name: task_seeded_om2w
data_files:
- split: train
path: data/task_seeded_om2w-*.parquet
- config_name: multi_agent
data_files:
- split: train
path: data/multi_agent-*.parquet
- config_name: node_traversal
data_files:
- split: train
path: data/node_traversal-*.parquet
---
# MolmoWeb-SyntheticTrajs
A dataset of synthetic web-navigation trajectories. Each example pairs an instruction with a sequence of webpage screenshots and the
corresponding agent actions (clicks, typing, scrolling, etc.).
## Dataset Usage
```python
from datasets import load_dataset
# load a single subset
ds = load_dataset("allenai/MolmoWeb-SyntheticTrajs", "from_template")
# available subsets
for cfg in ["from_template", "task_seeded_wv", "task_seeded_om2w",
"multi_agent", "node_traversal"]:
ds = load_dataset("allenai/MolmoWeb-SyntheticTrajs", cfg)
```
### Working with images and trajectories
Each row's `images` is a list of `{bytes, path}` structs. Use the `path`
field to match screenshots to trajectory steps:
```python
import json
row = ds[0]
traj = json.loads(row["trajectory"])
# build a lookup from filename -> image bytes
image_by_path = {img["path"]: img["bytes"] for img in row["images"]}
for step_id in sorted(traj.keys(), key=int):
screenshot_name = traj[step_id].get("screenshot")
if not screenshot_name:
continue
img_bytes = image_by_path.get(screenshot_name)
# img_bytes is the raw PNG/JPEG data for this step
```
## Dataset Structure
### Subsets
| Subset | Description |
|---|---|
| `from_template` | Trajectories generated from template-based instructions |
| `task_seeded_wv` | Task-seeded from Webvoyager tasks |
| `task_seeded_om2w` | Task-seeded from OnlineMind2Web tasks |
| `multi_agent` | Multi-agent trajectories |
| `node_traversal` | Node-traversal trajectories on top-500 |
### Features
| Field | Type | Description |
|---|---|---|
| `sample_id` | `string` | Unique hash identifying the trajectory |
| `instruction` | `string` | JSON-encoded task instruction (contains a `low_level` key or similar) |
| `trajectory` | `string` | JSON-encoded trajectory: a dict keyed by step index, each entry containing the agent's parsed action and screenshot filename |
| `images` | `list[{bytes, path}]` | List of screenshot structs; `bytes` is the raw image data, `path` is the filename used to match against trajectory steps |
Each step in `trajectory` (keyed by step index) contains:
| Field | Type | Description |
|---|---|---|
| `screenshot` | `string` | Filename matching an entry in the `images` list |
| `action` | `dict` | The agent action: `action_str` (parseable action string), `action_description` (natural language), and `action_output` (structured dict with `thought`, `action_name`, and action parameters) |
| `other_obs` | `dict` | Browser state: current `url`, `page_index`, `open_pages_titles`, `open_pages_urls` |
| `action_timestamp` | `float` | Unix timestamp of the action |
## License
This dataset is licensed under ODC-BY 1.0. It is intended for research and educational use in accordance with [Ai2's Responsible Use Guidelines](https://allenai.org/responsible-use). Instruction data was generated using Gemini Flash models (subject to [Google's Terms of Service](https://policies.google.com/terms)) and GPT models (subject to [OpenAI's Terms of Use](https://openai.com/policies/row-terms-of-use/)).
## Citation
If you use this dataset, please cite:
[arXiv:2604.08516](https://arxiv.org/abs/2604.08516)
```bibtex
@misc{gupta2026molmowebopenvisualweb,
title={MolmoWeb: Open Visual Web Agent and Open Data for the Open Web},
author={Tanmay Gupta and Piper Wolters and Zixian Ma and Peter Sushko and Rock Yuren Pang and Diego Llanes and Yue Yang and Taira Anderson and Boyuan Zheng and Zhongzheng Ren and Harsh Trivedi and Taylor Blanton and Caleb Ouellette and Winson Han and Ali Farhadi and Ranjay Krishna},
year={2026},
eprint={2604.08516},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2604.08516},
}
提供机构:
allenai
搜集汇总
数据集介绍

构建方式
在视觉网页导航研究领域,合成轨迹数据的构建对于训练和评估智能体至关重要。MolmoWeb-SyntheticTrajs数据集通过多种策略生成模拟网页交互轨迹,包括基于模板的指令生成、从Webvoyager和OnlineMind2Web任务中提取种子任务、多智能体协作模拟以及节点遍历方法。这些轨迹将自然语言指令与一系列网页截图及对应的智能体操作(如点击、输入、滚动等)精确配对,确保了数据在复杂网页环境中的多样性和真实性。
特点
该数据集的核心特点在于其结构化表示与多模态融合。每条数据均包含唯一的样本标识、JSON编码的任务指令以及详细记录每一步智能体操作与浏览器状态的轨迹字符串。特别地,轨迹中的每个步骤都关联了对应的网页截图二进制数据,实现了视觉观察与行为序列的紧密对齐。数据集划分为五个子集,分别针对不同的生成场景,如模板驱动、任务种子化及多智能体交互,为研究提供了丰富的实验基准。
使用方法
使用该数据集时,研究人员可通过HuggingFace的datasets库便捷加载指定子集。数据中的图像以字节流形式存储,并与轨迹步骤通过路径字段关联,用户可解析轨迹JSON来匹配每一步的截图与操作细节。这种设计便于直接应用于视觉语言模型训练或网页导航智能体的评估,支持从原始像素到高层动作序列的端到端学习流程。
背景与挑战
背景概述
在人工智能与计算机视觉交叉领域,网页导航任务旨在开发能够理解自然语言指令并执行复杂网页交互的智能体。MolmoWeb-SyntheticTrajs数据集由艾伦人工智能研究所(Allen Institute for AI)的研究团队于2026年创建,其核心研究问题聚焦于通过合成轨迹数据,推动开放视觉网页智能体的训练与评估。该数据集通过整合多模态信息,包括网页截图与对应的智能体动作序列,为大规模、多样化的网页交互任务提供了关键数据支持,对强化学习、多模态理解及具身智能等领域产生了深远影响。
当前挑战
该数据集致力于解决开放视觉网页导航这一复杂领域问题,其挑战在于如何准确模拟人类在动态、异构网页环境中的多步骤交互行为,并确保智能体能够泛化至未见过的网站与任务。在构建过程中,研究人员面临合成轨迹的真实性与多样性平衡难题,需通过模板生成、任务种子及多智能体协作等多种策略来覆盖广泛的交互模式。同时,数据对齐与标注的一致性也是关键挑战,要求将截图、动作序列及浏览器状态进行精确匹配,以构建高质量、可扩展的训练资源。
常用场景
经典使用场景
在视觉网络智能体研究领域,MolmoWeb-SyntheticTrajs数据集为训练和评估基于多模态输入的自主网络导航模型提供了关键资源。该数据集通过合成轨迹将自然语言指令与网页截图序列及对应操作(如点击、输入、滚动)精确对齐,使得研究者能够构建端到端的智能体系统,模拟人类在复杂网页环境中的交互行为。其多子集结构涵盖了从模板生成到多智能体协作等多种场景,为模型泛化能力测试奠定了坚实基础。
解决学术问题
该数据集有效应对了视觉网络导航研究中高质量、大规模标注数据稀缺的挑战。通过提供结构化的轨迹数据,它支持对智能体决策过程、跨网页状态理解及动作序列生成的深入研究。其丰富的多模态信息促进了计算机视觉与自然语言处理领域的交叉创新,为解决开放网络环境中长程任务规划、视觉语义对齐等核心问题提供了实证基础,推动了具身智能在虚拟环境中的发展。
衍生相关工作
围绕MolmoWeb-SyntheticTrajs数据集,已衍生出一系列关于视觉网络智能体的经典研究工作。这些工作主要集中在多模态序列建模、强化学习策略优化以及跨任务泛化方法上。研究者利用其提供的轨迹数据,开发了新型的神经网络架构与训练范式,用于提升智能体在未见网站与任务上的适应能力。相关成果不仅推动了学术进展,也为后续更大规模的开放网络智能体基准(如WebArena)的构建提供了重要参考与数据基础。
以上内容由遇见数据集搜集并总结生成



