aguvis-stage-2-v2

Hugging Face2025-09-04 更新2025-09-05 收录

下载链接：

https://huggingface.co/datasets/smolagents/aguvis-stage-2-v2

下载链接

链接失效反馈

官方服务：

资源简介：

这个数据集包含多个配置，每个配置包括图像和文本信息。文本信息包括assistant、system和user三种类型，以及数据来源。数据集被分为不同的配置，例如aitw-l1, aitw-l2, aitw-l3等，每个配置有不同的数据量。

创建时间：

2025-09-01

原始信息汇总

smolagents/aguvis-stage-2-v2 数据集概述

数据集结构

配置数量：20个独立配置
数据格式：多模态（图像+文本）
分割：所有配置仅包含训练集

配置详情

网页交互数据集

aitw (3个层级)
- 样本数量：18,992/层级
- 数据集大小：约4.24GB/层级
- 下载大小：约4.00GB/层级
amex (3个层级)
- 样本数量：38,468/层级
- 数据集大小：约26.56GB/层级
- 下载大小：约26.05GB/层级
gui-odyssey (3个层级)
- 样本数量：118,282/层级
- 数据集大小：约86.59GB/层级
- 下载大小：约84.20GB/层级
guiact-web-multi (3个层级)
- 样本数量：16,704/层级
- 数据集大小：约9.00GB/层级
- 下载大小：约8.89GB/层级
guiact-web-single (单层级)
- 样本数量：67,396
- 数据集大小：约38.64GB
- 下载大小：约38.28GB
mind2web (3个层级)
- 样本数量：7,591/层级
- 数据集大小：约3.43GB/层级
- 下载大小：约3.32GB/层级
miniwob (3个层级)
- 样本数量：9,826/层级
- 数据集大小：约0.27GB/层级
- 下载大小：约0.22GB/层级

移动端交互数据集

android_control (单层级)
- 样本数量：74,714
- 数据集大小：约37.32GB
- 下载大小：约36.56GB
coat (单层级)
- 样本数量：11,921
- 数据集大小：约2.75GB
- 下载大小：约2.67GB

特征结构

所有配置共享相同的特征结构：

images：图像列表
texts：文本列表，包含三个字段
- assistant：助手回复文本
- system：系统提示文本
- user：用户输入文本
source：数据来源标识

数据总量

总样本量：约537,000条
总数据集大小：约1.1TB
总下载大小：约1.0TB

数据访问

所有配置的数据文件路径格式为：{config_name}/train-*

搜集汇总

数据集介绍

构建方式

在图形用户界面交互研究领域，aguvis-stage-2-v2数据集通过整合多个知名子集如AITW、Android Control和GUI Odyssey等构建而成。每个子集均采用屏幕截图与多轮对话文本配对的方式，系统化地采集了用户指令、系统回应及助手反馈的三元组交互数据，并标注了数据来源以确保可追溯性。

特点

该数据集囊括了超过50万条高质量的多模态样本，覆盖了从简单网页操作到复杂移动端任务的多层次交互场景。其核心特征在于融合了视觉界面元素与结构化对话文本，每个样本均包含图像序列和对应的多轮对话，支持模型同时理解界面视觉信息与语言指令之间的关联。

使用方法

研究者可通过HuggingFace平台按需加载特定配置的子数据集，例如aitw-l3或android_control。每个子集均以标准化的图像-文本对格式呈现，支持直接输入多模态模型进行训练。典型应用包括视觉语言导航、界面操作代理等任务的模型开发与评估。

背景与挑战

背景概述

随着人工智能在图形用户界面交互领域的深入发展，aguvis-stage-2-v2数据集应运而生，旨在推动多模态智能体在复杂环境中的任务执行能力。该数据集由专业研究团队构建，聚焦于结合视觉与文本信息进行界面理解和操作指令生成，涵盖网页、移动应用及桌面环境等多种场景。其核心研究问题在于如何使模型准确解析屏幕元素并生成可靠的动作序列，对自动化测试、智能助手及无障碍技术等领域具有显著影响力。

当前挑战

该数据集致力于解决图形界面智能交互中的多模态理解与动作生成的挑战，包括跨平台界面元素的泛化识别、用户意图的精确解析以及操作逻辑的连贯性保证。构建过程中面临标注一致性维护、大规模高质量图像-文本对的采集与对齐，以及动态界面状态变化的有效捕捉等难题，需综合计算机视觉与自然语言处理技术以实现可靠的数据集成。

常用场景

经典使用场景

在图形用户界面智能体研究领域，该数据集通过整合多模态图像与文本对话数据，为训练视觉语言模型提供了丰富资源。其经典应用体现在模拟真实用户与AI助手的交互过程，涵盖网页导航、移动端操作等多样化场景，成为评估模型跨任务泛化能力的重要基准。

解决学术问题

该数据集有效解决了多模态推理中的视觉-语言对齐难题，为研究端到端的GUI理解与操作提供了标准化实验环境。通过提供大规模标注数据，它显著推进了视觉基础模型在具身智能领域的发展，填补了传统文本单一模态与复杂视觉环境交互之间的研究空白。

衍生相关工作

基于该数据集衍生的研究包括多模态指令微调框架、视觉语言导航系统以及跨平台GUI理解模型等经典工作。这些成果不仅推动了VLM在具体任务中的性能边界，还催生了如屏幕阅读器增强、智能流程自动化等创新应用方向的发展。

以上内容由遇见数据集搜集并总结生成