five

allenai/MolmoWeb-SyntheticGround

收藏
Hugging Face2026-04-10 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/allenai/MolmoWeb-SyntheticGround
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: gpt features: - name: image dtype: image - name: messages list: - name: question dtype: string - name: answer dtype: string - name: thought dtype: string - name: bbox dtype: string - name: metadata struct: - name: website dtype: string - name: url dtype: string - name: image_w dtype: int32 - name: image_h dtype: int32 splits: - name: train num_bytes: 31343392421.09 num_examples: 130370 download_size: 33110344562 dataset_size: 31343392421.09 - config_name: template features: - name: image dtype: image - name: messages list: - name: question dtype: string - name: answer dtype: string - name: thought dtype: string - name: bbox dtype: string - name: metadata struct: - name: website dtype: string - name: url dtype: string - name: image_w dtype: int32 - name: image_h dtype: int32 splits: - name: train num_bytes: 49041185512.136 num_examples: 232089 download_size: 52963326966 dataset_size: 49041185512.136 configs: - config_name: gpt data_files: - split: train path: gpt/train-* - config_name: template data_files: - split: train path: template/train-* license: odc-by --- # MolmoWeb-SyntheticGround A dataset of webpage screenshots paired with synthetic grounding tasks. Each example asks a model to identify a target element on the page, with ground-truth bounding boxes and (for GPT examples) natural-language thoughts. ## Dataset Usage ```python from datasets import load_dataset # load the gpt subset ds = load_dataset("allenai/MolmoWeb-SyntheticGround", "gpt") # load the template subset ds = load_dataset("allenai/MolmoWeb-SyntheticGround", "template") ``` ## Dataset Structure ### Subsets The dataset has two configurations: - `template`: Grounding questions generated with templates, without GPT involvement. - `gpt`: GPT5-selected elements with GPT5-generated queries and thoughts. ### Features | Field | Type | Description | |-------|------|-------------| | `image` | `Image` | Screenshot of the webpage | | `messages` | `list` | Grounding tasks associated with this screenshot (see below) | | `metadata.website` | `string` | Website name (dataset source) | | `metadata.url` | `string` | Full URL of the page | | `metadata.image_w` | `int32` | Image width in pixels | | `metadata.image_h` | `int32` | Image height in pixels | Each entry in `messages` contains: | Field | Type | Description | |-------|------|-------------| | `question` | `string` | The grounding query for a target element | | `answer` | `string` | JSON-encoded answer object (action type, coordinates, etc.; Note that the `x` and `y` coordinates in the `action` dictionary are randomly sampled from the bbox with a Gaussian distribution around the bbox center. | | `thought` | `string` | GPT- or template-generated reasoning | | `bbox` | `string` | JSON-encoded bounding box `[x1, y1, x2, y2]` of the target element | ## License This dataset is licensed under ODC-BY 1.0. It is intended for research and educational use in accordance with [Ai2's Responsible Use Guidelines](https://allenai.org/responsible-use). Synthetic QA data was generated using GPT-5, which is subject to [OpenAI's Terms of Use](https://openai.com/policies/row-terms-of-use/). ## Citation If you use this dataset, please cite: [arXiv:2604.08516](https://arxiv.org/abs/2604.08516) ```bibtex @misc{gupta2026molmowebopenvisualweb, title={MolmoWeb: Open Visual Web Agent and Open Data for the Open Web}, author={Tanmay Gupta and Piper Wolters and Zixian Ma and Peter Sushko and Rock Yuren Pang and Diego Llanes and Yue Yang and Taira Anderson and Boyuan Zheng and Zhongzheng Ren and Harsh Trivedi and Taylor Blanton and Caleb Ouellette and Winson Han and Ali Farhadi and Ranjay Krishna}, year={2026}, eprint={2604.08516}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2604.08516}, }
提供机构:
allenai
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉网页智能体研究领域,MolmoWeb-SyntheticGround数据集通过合成方式构建,专注于网页元素的视觉定位任务。该数据集包含两个子集:template子集采用模板化方法生成定位问题,而gpt子集则借助GPT-5模型筛选目标元素并生成自然语言查询与推理过程。每个数据样本由网页截图、对应的定位任务消息以及元数据组成,其中定位任务消息包含问题、答案、推理链和边界框信息,答案中的坐标基于边界框中心的高斯分布随机采样生成,模拟真实交互场景。
特点
该数据集的核心特点在于其多模态结构与精细的标注层次。每个样本整合了视觉截图与结构化文本信息,形成图像-文本对的统一表示。定位任务消息中不仅包含目标元素的边界框坐标,还提供了自然语言推理过程,增强了任务的可解释性。数据集涵盖超过36万个样本,源自真实网页截图,确保了数据的多样性与现实代表性。两种子集的并存为研究不同生成方法对模型性能的影响提供了对比基础,而坐标的随机化处理则模拟了实际交互中的不确定性。
使用方法
使用该数据集时,研究人员可通过Hugging Face的datasets库便捷加载。具体操作中,需指定数据集名称“allenai/MolmoWeb-SyntheticGround”并选择配置子集(gpt或template)。加载后的数据集可直接用于训练或评估视觉网页智能体模型,特别是在元素定位、视觉问答及多模态推理任务中。数据中的image字段可直接输入视觉编码器,messages字段则提供任务监督信号,metadata中的网址与尺寸信息有助于进行数据溯源与分析。该数据集遵循ODC-BY许可,适用于符合伦理规范的研究与教育用途。
背景与挑战
背景概述
随着人工智能在视觉与语言交叉领域的深入探索,网页理解与交互任务逐渐成为研究热点。MolmoWeb-SyntheticGround数据集由AllenAI研究团队于2026年提出,旨在为开放网络环境下的视觉网页智能体提供高质量的合成标注数据。该数据集的核心研究问题聚焦于网页元素的视觉定位与自然语言指令的精准对应,通过结合网页截图与合成生成的问答对,推动视觉网页代理在开放网络中的泛化能力与交互性能。其引入不仅丰富了多模态网页理解的数据资源,也为后续研究提供了可扩展的基准测试平台,对计算机视觉与自然语言处理领域的融合应用产生了积极影响。
当前挑战
在视觉网页代理领域,模型需准确解析复杂多变的网页布局并执行精细的元素定位任务,这要求算法具备强大的跨模态对齐与上下文推理能力。MolmoWeb-SyntheticGround数据集构建过程中面临多重挑战:一方面,合成数据的生成需平衡真实性与多样性,确保标注既能覆盖广泛的网页交互场景,又避免引入语义偏差;另一方面,标注的几何精度与语义一致性难以同时保障,例如边界框坐标的随机化处理虽增强了鲁棒性,但也可能影响定位任务的评估信度。此外,大规模高质量合成数据的生成依赖于先进的大语言模型,其固有的生成不确定性及潜在的伦理约束亦为数据集的可靠应用带来隐忧。
常用场景
经典使用场景
在视觉网页代理研究领域,MolmoWeb-SyntheticGround数据集为模型训练提供了关键支持。该数据集通过网页截图与合成标注任务的配对,专注于元素定位任务,其中每个示例要求模型识别页面上的目标元素,并提供了真实的边界框坐标以及自然语言推理过程。这种结构使得数据集成为训练多模态模型理解网页视觉布局与语义内容的理想工具,尤其在模拟真实网页交互场景中,模型能够学习从复杂视觉信息中精确提取并定位特定元素的能力。
实际应用
在实际应用层面,MolmoWeb-SyntheticGround数据集可广泛应用于网页自动化测试与辅助技术开发。例如,在自动化网页导航系统中,模型利用该数据集训练后能够准确识别按钮、链接等交互元素,提升机器人流程自动化的效率与可靠性。同时,该数据集支持开发视觉辅助工具,帮助视障用户通过语音或触觉反馈理解网页内容,增强数字包容性。此外,它还可用于网页设计优化,通过分析元素定位数据改进用户体验布局。
衍生相关工作
基于MolmoWeb-SyntheticGround数据集,衍生出多项经典研究工作,主要集中在视觉网页代理与多模态学习领域。例如,相关研究探索了如何利用合成标注提升模型在开放网页环境中的泛化能力,开发了端到端的视觉推理框架。这些工作进一步扩展了数据集的用途,如结合强化学习进行网页任务自动化,或集成大语言模型增强自然语言交互。这些衍生成果不仅丰富了数据集的理论价值,还为实际部署提供了技术路径,推动了智能代理系统的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作