Dreamer-V1-Data
收藏Hugging Face2025-04-09 更新2025-04-10 收录
下载链接:
https://huggingface.co/datasets/osunlp/Dreamer-V1-Data
下载链接
链接失效反馈官方服务:
资源简介:
README文件未直接描述数据集,但从上下文推测,数据集包含了用于训练WebDreamer模型的文本和图像数据,以及相应的响应和动作。这些数据用于训练模型以执行网络代理任务。
提供机构:
OSU NLP Group
创建时间:
2025-04-09
搜集汇总
数据集介绍

构建方式
在网页智能体任务规划领域,Dreamer-V1-Data数据集通过严格的清洗流程构建而成,原始数据经过多轮筛选后保留312万条高质量样本。数据集采用树状结构存储,包含提示文本、二进制图像、响应文本和动作指令四个核心字段,这种结构化设计有效支撑了多模态学习任务。数据采集过程特别注重真实网页交互场景的覆盖,确保样本能准确反映复杂网络环境中的操作逻辑。
特点
该数据集最显著的特点在于其多模态特性与真实场景的高保真度,图像数据与文本指令的精准对齐为模型提供了丰富的上下文信息。数据分布涵盖购物平台、分类广告和社交媒体三大典型网页场景,具有鲜明的领域适应性。实验表明,基于该数据集训练的模型在VisualWebArena等基准测试中较基线方法提升达42.3%,验证了数据质量的优越性。样本中的动作指令采用细粒度标注,能有效指导模型完成点击、输入等具体操作。
使用方法
使用该数据集时建议采用端到端的多模态训练框架,将图像与文本数据同步输入模型进行处理。数据集兼容主流深度学习库,可通过HuggingFace平台直接加载,其二进制图像字段需经base64解码后使用。研究人员可参照提供的提示模板构建训练样本,但模型对输入格式具有较强鲁棒性,允许根据任务需求灵活调整。对于推理部署,推荐使用vLLM服务器方案,并保持1.0的温度参数以获得最佳创造性。
背景与挑战
背景概述
Dreamer-V1-Data数据集由OSU-NLP Group与Orby AI合作开发,旨在支持WebDreamer框架的研究与应用。该框架专注于提升网络代理任务中的规划效率与效果,通过模型驱动的规划方法显著优化了代理在复杂网络环境中的决策能力。数据集发布于2024年,核心研究问题聚焦于如何利用大规模多模态数据(文本、图像、动作序列)训练通用型网络代理,以应对动态网页交互的挑战。其在VisualWebArena和Mind2Web-live等基准测试中取得的性能突破,标志着网络代理领域从反应式策略向主动式规划的范式转变。
当前挑战
该数据集需解决网络代理领域的两大核心挑战:一是动态网页环境的实时感知与推理,要求模型从多模态输入中准确解析可操作元素;二是长周期任务规划的复杂性,需平衡探索效率与动作序列的可行性。构建过程中,数据清洗面临网页结构异构性带来的标注噪声,而动作序列的稀疏性则增加了高质量轨迹合成的难度。此外,跨领域泛化性要求模型在电商、论坛等不同场景中保持稳定的表现,这对数据覆盖广度与分布均衡性提出了严苛要求。
常用场景
经典使用场景
在智能代理与网页交互的研究领域,Dreamer-V1-Data数据集为模型训练提供了丰富的多模态样本,其经典使用场景集中在基于视觉的网页任务规划。该数据集通过整合文本提示、屏幕截图及对应操作序列,支持模型学习网页元素识别、动作预测等核心能力,尤其适用于模拟真实用户浏览行为的端到端训练。
实际应用
在实际应用层面,该数据集支撑的WebDreamer框架已成功部署于电商购物、信息检索等真实场景。通过模拟用户与网页的动态交互过程,系统能够自主完成商品比价、表单填写等任务,其34.1%的性能提升验证了模型在减少真实交互依赖方面的工程价值,为自动化网页操作工具的开发提供了新范式。
衍生相关工作
基于该数据集衍生的研究形成了网页智能代理的技术谱系,包括OSU-NLP团队开发的Dreamer-7B系列领域适配模型,以及在VisualWebArena基准上提出的混合规划算法。相关成果通过arXiv论文及开源项目持续扩展,启发了后续关于网页环境世界模型构建、多模态动作预测等方向的探索。
以上内容由遇见数据集搜集并总结生成



