allenai/MolmoWeb-HumanSkills
收藏Hugging Face2026-04-10 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/allenai/MolmoWeb-HumanSkills
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: sample_id
dtype: string
- name: instruction
dtype: string
- name: trajectory
dtype: string
- name: images
sequence: image
- name: image_paths
sequence: string
splits:
- name: train
num_examples: 115637
- name: preview
num_examples: 100
configs:
- config_name: default
data_files:
- split: train
path: data/train-*.parquet
- split: preview
path: data/preview-00000.parquet
---
# MolmoWeb-HumanSkills
A dataset of human collected web-navigation skills, where a skill is a trajectory for a very low level task (eg. find_and_open, fill_form). Each example pairs an instruction with a sequence of webpage screenshots and the corresponding agent actions (clicks, typing, scrolling, etc.).
## Dataset Usage
```python
from datasets import load_dataset
# load a single subset
ds = load_dataset("allenai/MolmoWeb-HumanSkills")
```
### Working with images and trajectories
Each row has an `images` field (list of raw image bytes) and a corresponding `image_paths` field (list of filenames). Use `image_paths` to match screenshots to trajectory steps:
```python
import json
row = ds[0]
traj = json.loads(row["trajectory"])
# build a lookup from filename -> image bytes
image_by_path = dict(zip(row["image_paths"], row["images"]))
for step_id in sorted(traj.keys(), key=int):
screenshot_name = traj[step_id].get("screenshot")
if not screenshot_name:
continue
img_bytes = image_by_path.get(screenshot_name)
# img_bytes is the raw PNG/JPEG data for this step
```
## Dataset Structure
### Features
| Field | Type | Description |
|---|---|---|
| `sample_id` | `string` | Unique hash identifying the trajectory |
| `instruction` | `string` | JSON-encoded task instruction (contains a `low_level` key or similar) |
| `trajectory` | `string` | JSON-encoded trajectory: a dict keyed by step index, each entry containing the agent's parsed action and screenshot filename |
| `images` | `list[bytes]` | List of screenshot structs; `bytes` is the raw image data, `path` is the filename used to match against trajectory steps |
| `image_paths` | `list[path]` | List of paths to screenshots used to match against trajectory steps |
### Trajectory step structure
Each step in `trajectory` (keyed by step index) contains:
| Field | Type | Description |
|---|---|---|
| `screenshot` | `string` | Filename matching an entry in the `images` list |
| `action` | `dict` | The agent action: `action_str` (parseable action string), `action_description` (natural language), and `action_output` (structured dict with `thought`, `action_name`, and action parameters) |
| `other_obs` | `dict` | Browser state: current `url`, `page_index`, `open_pages_titles`, `open_pages_urls` |
| `action_timestamp` | `float` | Unix timestamp of the action |
## License
This dataset is licensed under ODC-BY 1.0. It is intended for research and educational use in accordance with [Ai2's Responsible Use Guidelines](https://allenai.org/responsible-use). Instruction data was generated using GPT models, which are subject to [OpenAI's Terms of Use](https://openai.com/policies/row-terms-of-use/).
## Citation
If you use this dataset, please cite:
[arXiv:2604.08516](https://arxiv.org/abs/2604.08516)
```bibtex
@misc{gupta2026molmowebopenvisualweb,
title={MolmoWeb: Open Visual Web Agent and Open Data for the Open Web},
author={Tanmay Gupta and Piper Wolters and Zixian Ma and Peter Sushko and Rock Yuren Pang and Diego Llanes and Yue Yang and Taira Anderson and Boyuan Zheng and Zhongzheng Ren and Harsh Trivedi and Taylor Blanton and Caleb Ouellette and Winson Han and Ali Farhadi and Ranjay Krishna},
year={2026},
eprint={2604.08516},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2604.08516},
}
提供机构:
allenai
搜集汇总
数据集介绍

构建方式
在视觉网页代理研究领域,MolmoWeb-HumanSkills数据集通过系统化采集人类在网页导航中的低层级任务轨迹而构建。其构建过程涉及记录用户在完成诸如查找并打开、填写表单等具体任务时的操作序列,同时捕获每一步对应的网页截图与代理动作。数据以指令与轨迹配对的形式组织,其中指令经由GPT模型生成,轨迹则包含点击、输入、滚动等结构化动作及浏览器状态信息,最终形成包含逾11万条样本的大规模资源。
特点
该数据集的核心特点在于其深度融合了视觉与文本模态,每条样本均关联一系列网页截图及对应的结构化轨迹描述。轨迹数据以JSON格式编码,细致记录了每一步的动作字符串、自然语言描述以及浏览器观测状态,如URL与页面索引。此外,数据集通过唯一的样本标识符确保轨迹的可追溯性,图像数据以原始字节形式存储,并配有路径字段以精准匹配轨迹步骤,为多模态网页导航研究提供了高保真的实验基础。
使用方法
使用该数据集时,研究者可通过Hugging Face的datasets库直接加载,利用提供的Python代码示例解析轨迹与图像的对应关系。具体而言,需从每条样本中提取轨迹字符串并反序列化为JSON对象,同时通过image_paths字段建立文件名到图像字节的映射,从而按步骤索引关联截图与动作数据。这种设计便于开发与评估视觉网页代理模型,支持对低层级网页交互任务进行端到端的训练与验证。
背景与挑战
背景概述
在人工智能与机器人学领域,视觉网页导航任务旨在模拟人类在开放网络环境中的交互行为,以提升智能代理的自主操作能力。MolmoWeb-HumanSkills数据集由AllenAI研究团队于2026年发布,作为论文《MolmoWeb: Open Visual Web Agent and Open Data for the Open Web》的核心贡献之一。该数据集聚焦于低层级网页操作技能,如查找与打开、表单填写等,通过采集人类演示轨迹,将自然语言指令与网页截图序列及对应代理动作(点击、输入、滚动等)进行配对,为视觉-语言-动作多模态学习提供了大规模、结构化的训练资源,显著推动了开放网络环境下智能代理的泛化能力与实用性研究。
当前挑战
视觉网页导航领域长期面临环境动态性、任务多样性与动作序列复杂性的挑战,要求模型具备跨网页的视觉理解、语言指令解析与精确动作执行能力。MolmoWeb-HumanSkills数据集在构建过程中需克服多模态数据对齐的困难,包括网页截图与动作轨迹的时序匹配、浏览器状态变化的准确记录,以及低层级技能的高质量标注。此外,数据采集涉及人类演示的规模扩展与一致性维护,同时需处理开放网络内容的异构性与隐私合规问题,这些挑战共同制约着数据集的完备性与模型训练的可靠性。
常用场景
经典使用场景
在视觉网页智能体研究领域,MolmoWeb-HumanSkills数据集为训练和评估多模态智能体提供了关键资源。其经典使用场景集中于模拟人类在网页环境中的低层次交互任务,例如查找并打开特定页面或填写表单。通过结合指令、网页截图序列与对应的代理动作轨迹,该数据集支持构建端到端的视觉-语言模型,以学习从视觉输入到动作输出的映射关系,从而推动开放网络环境下的自主导航能力研究。
解决学术问题
该数据集有效解决了视觉网页智能体领域中的若干核心学术问题,包括如何将自然语言指令转化为可执行的网页操作序列,以及如何整合多模态信息以实现精准的动作预测。其意义在于提供了大规模、高质量的人类演示轨迹,为研究动作规划、状态表示和跨模态对齐等基础问题奠定了数据基础,显著促进了智能体在复杂、动态网页环境中的泛化与适应能力。
衍生相关工作
围绕MolmoWeb-HumanSkills数据集,已衍生出一系列经典研究工作,主要集中在视觉-语言模型与网页智能体的结合上。例如,相关研究探索了如何利用轨迹数据进行模仿学习或强化学习,以优化智能体的决策策略;同时,也有工作致力于改进多模态表示学习,以更好地理解网页截图与文本指令之间的语义关联,推动了开放网络智能体技术的持续演进。
以上内容由遇见数据集搜集并总结生成



