aguvis-stage-1

Hugging Face2025-07-31 更新2025-08-01 收录

下载链接：

https://huggingface.co/datasets/smolagents/aguvis-stage-1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了多个配置，每个配置都是对话和图像数据的集合，适用于训练对话系统和图像理解模型。具体包括以下数据集配置：guienv、omniact、ricoig16k、ricosca、ui_refexp、webui350k和widget_captioning。每个配置都有对应的训练集划分，以及各自的字节数和示例数量。

This dataset contains multiple configurations, each of which is a collection of dialogue and image data, and is applicable for training dialogue systems and image understanding models. Specifically, it includes the following dataset configurations: guienv, omniact, ricoig16k, ricosca, ui_refexp, webui350k and widget_captioning. Each configuration has its corresponding training set split, as well as its own byte size and number of examples.

创建时间：

2025-07-30

原始信息汇总

数据集概述

基本信息

数据集名称: smolagents/aguvis-stage-1
配置数量: 7
总下载大小: 约320.91 GB
总数据集大小: 约1.44 TB

配置详情

1. guienv

特征:
- user: string
- assistant: string
- image: image
训练集:
- 样本数量: 327,972
- 大小: 约144.21 GB
下载大小: 约32.09 GB

2. omniact

特征:
- user: string
- assistant: string
- image: image
训练集:
- 样本数量: 6,719
- 大小: 约7.01 GB
下载大小: 约276.27 MB

3. ricoig16k

特征:
- user: string
- assistant: string
- image: image
训练集:
- 样本数量: 32,091
- 大小: 约21.85 GB
下载大小: 约10.56 GB

4. ricosca

特征:
- user: string
- assistant: string
- image: image
训练集:
- 样本数量: 173,212
- 大小: 约81.49 GB
下载大小: 约81.06 GB

5. ui_refexp

特征:
- user: string
- assistant: string
- image: image
训练集:
- 样本数量: 15,624
- 大小: 约9.83 GB
下载大小: 约3.04 GB

6. webui350k

特征:
- user: string
- assistant: string
- image: image
训练集:
- 样本数量: 57,389
- 大小: 约34.98 GB
下载大小: 约34.92 GB

7. widget_captioning

特征:
- user: string
- assistant: string
- image: image
训练集:
- 样本数量: 101,426
- 大小: 约67.46 GB
下载大小: 约27.77 GB

搜集汇总

数据集介绍

构建方式

aguvis-stage-1数据集通过整合多个子数据集构建而成，涵盖了图形用户界面（GUI）领域的多样化场景。每个子数据集如guienv、omniact、ricoig16k等，均采用统一的结构化格式，包含用户输入（user）、助手回复（assistant）以及对应的图像（image）字段。数据采集过程注重多源异构数据的融合，确保覆盖不同应用场景下的交互模式，例如界面设计、控件描述等。数据预处理阶段对图像和文本进行了标准化处理，以保证数据质量的一致性。

特点

该数据集以其大规模和多模态特性著称，总计包含超过70万条样本，涵盖文本和图像的丰富组合。每个子数据集针对特定任务设计，如ricoig16k专注于界面生成，widget_captioning侧重控件描述，形成了互补的知识体系。数据集中图像分辨率多样，文本描述精准，为研究GUI领域的多模态学习提供了坚实基础。跨数据集的统一格式设计，使得研究者能够便捷地进行联合训练或迁移学习。

使用方法

研究者可通过HuggingFace平台直接加载特定子数据集，如加载ricoig16k配置时指定config_name参数。数据集支持流式读取，适合处理海量图像文本对。典型应用场景包括但不限于：视觉语言模型预训练、界面生成任务微调、多模态对话系统开发等。使用时应根据显存容量合理设置batch_size，对于图像数据处理建议采用现代深度学习框架（如PyTorch）的DataLoader进行高效加载。不同子数据集可单独使用，也可通过联合训练发挥协同效应。

背景与挑战

背景概述

aguvis-stage-1数据集是一个多模态数据集，专注于图形用户界面（GUI）领域的视觉与语言交互任务。该数据集由多个子集构成，包括guienv、omniact、ricoig16k等，涵盖了用户指令、助手回应以及相关图像数据。其核心研究问题在于如何通过自然语言理解和图像处理技术，实现人机交互的智能化与高效化。该数据集的构建为GUI领域的自动化任务、视觉问答以及界面设计优化提供了重要的数据支持，推动了相关领域的研究进展。

当前挑战

aguvis-stage-1数据集面临的挑战主要体现在两个方面：其一，在领域问题解决上，如何准确理解用户指令并生成与图像内容相符的回应是一个复杂的问题，涉及多模态数据的对齐与融合；其二，在构建过程中，数据集的规模庞大且多样化，如何确保数据质量、标注一致性以及跨子集的数据平衡成为关键难点。此外，图像与文本的跨模态表示学习也带来了技术上的挑战。

常用场景

经典使用场景

在图形用户界面（GUI）研究领域，aguvis-stage-1数据集通过整合多模态数据（文本与图像），为界面理解和交互任务提供了丰富的训练资源。其经典使用场景包括训练视觉语言模型进行界面元素的自动标注、用户指令解析以及跨模态检索，尤其在GUI自动化测试和智能辅助设计系统中展现显著价值。

衍生相关工作

基于该数据集衍生的经典工作包括GUI-Agent等端到端界面操作框架，其通过多模态预训练实现零样本界面导航；RICO-CLIP等跨模态检索模型在界面元素定位任务中达到SOTA性能；另有研究团队构建了WidgetCap数据集，专门针对移动端组件级 captioning 任务进行深度扩展。

数据集最近研究