aguvis-stage-1
收藏Hugging Face2025-07-31 更新2025-08-01 收录
下载链接:
https://huggingface.co/datasets/smolagents/aguvis-stage-1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了多个配置,每个配置都是对话和图像数据的集合,适用于训练对话系统和图像理解模型。具体包括以下数据集配置:guienv、omniact、ricoig16k、ricosca、ui_refexp、webui350k和widget_captioning。每个配置都有对应的训练集划分,以及各自的字节数和示例数量。
创建时间:
2025-07-30
原始信息汇总
数据集概述
基本信息
- 数据集名称: smolagents/aguvis-stage-1
- 配置数量: 7
- 总下载大小: 约320.91 GB
- 总数据集大小: 约1.44 TB
配置详情
1. guienv
- 特征:
- user: string
- assistant: string
- image: image
- 训练集:
- 样本数量: 327,972
- 大小: 约144.21 GB
- 下载大小: 约32.09 GB
2. omniact
- 特征:
- user: string
- assistant: string
- image: image
- 训练集:
- 样本数量: 6,719
- 大小: 约7.01 GB
- 下载大小: 约276.27 MB
3. ricoig16k
- 特征:
- user: string
- assistant: string
- image: image
- 训练集:
- 样本数量: 32,091
- 大小: 约21.85 GB
- 下载大小: 约10.56 GB
4. ricosca
- 特征:
- user: string
- assistant: string
- image: image
- 训练集:
- 样本数量: 173,212
- 大小: 约81.49 GB
- 下载大小: 约81.06 GB
5. ui_refexp
- 特征:
- user: string
- assistant: string
- image: image
- 训练集:
- 样本数量: 15,624
- 大小: 约9.83 GB
- 下载大小: 约3.04 GB
6. webui350k
- 特征:
- user: string
- assistant: string
- image: image
- 训练集:
- 样本数量: 57,389
- 大小: 约34.98 GB
- 下载大小: 约34.92 GB
7. widget_captioning
- 特征:
- user: string
- assistant: string
- image: image
- 训练集:
- 样本数量: 101,426
- 大小: 约67.46 GB
- 下载大小: 约27.77 GB
搜集汇总
数据集介绍

构建方式
aguvis-stage-1数据集通过整合多个子数据集构建而成,涵盖了图形用户界面(GUI)领域的多样化场景。每个子数据集如guienv、omniact、ricoig16k等,均采用统一的结构化格式,包含用户输入(user)、助手回复(assistant)以及对应的图像(image)字段。数据采集过程注重多源异构数据的融合,确保覆盖不同应用场景下的交互模式,例如界面设计、控件描述等。数据预处理阶段对图像和文本进行了标准化处理,以保证数据质量的一致性。
特点
该数据集以其大规模和多模态特性著称,总计包含超过70万条样本,涵盖文本和图像的丰富组合。每个子数据集针对特定任务设计,如ricoig16k专注于界面生成,widget_captioning侧重控件描述,形成了互补的知识体系。数据集中图像分辨率多样,文本描述精准,为研究GUI领域的多模态学习提供了坚实基础。跨数据集的统一格式设计,使得研究者能够便捷地进行联合训练或迁移学习。
使用方法
研究者可通过HuggingFace平台直接加载特定子数据集,如加载ricoig16k配置时指定config_name参数。数据集支持流式读取,适合处理海量图像文本对。典型应用场景包括但不限于:视觉语言模型预训练、界面生成任务微调、多模态对话系统开发等。使用时应根据显存容量合理设置batch_size,对于图像数据处理建议采用现代深度学习框架(如PyTorch)的DataLoader进行高效加载。不同子数据集可单独使用,也可通过联合训练发挥协同效应。
背景与挑战
背景概述
aguvis-stage-1数据集是一个多模态数据集,专注于图形用户界面(GUI)领域的视觉与语言交互任务。该数据集由多个子集构成,包括guienv、omniact、ricoig16k等,涵盖了用户指令、助手回应以及相关图像数据。其核心研究问题在于如何通过自然语言理解和图像处理技术,实现人机交互的智能化与高效化。该数据集的构建为GUI领域的自动化任务、视觉问答以及界面设计优化提供了重要的数据支持,推动了相关领域的研究进展。
当前挑战
aguvis-stage-1数据集面临的挑战主要体现在两个方面:其一,在领域问题解决上,如何准确理解用户指令并生成与图像内容相符的回应是一个复杂的问题,涉及多模态数据的对齐与融合;其二,在构建过程中,数据集的规模庞大且多样化,如何确保数据质量、标注一致性以及跨子集的数据平衡成为关键难点。此外,图像与文本的跨模态表示学习也带来了技术上的挑战。
常用场景
经典使用场景
在图形用户界面(GUI)研究领域,aguvis-stage-1数据集通过整合多模态数据(文本与图像),为界面理解和交互任务提供了丰富的训练资源。其经典使用场景包括训练视觉语言模型进行界面元素的自动标注、用户指令解析以及跨模态检索,尤其在GUI自动化测试和智能辅助设计系统中展现显著价值。
衍生相关工作
基于该数据集衍生的经典工作包括GUI-Agent等端到端界面操作框架,其通过多模态预训练实现零样本界面导航;RICO-CLIP等跨模态检索模型在界面元素定位任务中达到SOTA性能;另有研究团队构建了WidgetCap数据集,专门针对移动端组件级 captioning 任务进行深度扩展。
数据集最近研究
最新研究方向
在图形用户界面(GUI)与多模态交互领域,aguvis-stage-1数据集因其丰富的图像-文本对样本而成为研究热点。该数据集整合了GUI环境描述、界面元素标注及交互指令等多维度数据,为视觉语言模型在界面理解任务中的性能优化提供了重要支撑。近期研究聚焦于跨模态表征学习,探索如何通过联合训练提升模型对界面元素的视觉语义对齐能力,尤其在自动化测试、无障碍交互等场景展现出显著价值。随着智能助手与AR/VR技术的融合趋势,该数据集在零样本界面操作推理、动态环境适应等前沿方向的应用潜力正被深入挖掘。
以上内容由遇见数据集搜集并总结生成



