five

computer-use-data-psai

收藏
Hugging Face2025-10-29 更新2025-10-30 收录
下载链接:
https://huggingface.co/datasets/anaisleila/computer-use-data-psai
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了多个字段,如任务ID、任务名称、分类、子分类、应用网站、标签、基准、应用类型、难度、操作系统、是否需要登录、视频大小、完成时间、推理步骤、元数据、截图和视频文件等。数据集分为训练集,共有1000个样本。
创建时间:
2025-10-28
原始信息汇总

Computer Use Dataset - PSAI 数据集概述

数据集基本信息

  • 数据集名称: Computer Use Dataset - Paradigm Shift AI
  • 许可证: MIT
  • 任务类别: 强化学习、机器人技术、视频分类、图像到文本、视觉问答、其他
  • 语言: 英语
  • 数据规模: 1K<n<10K

核心特征

  • 多模态人机交互数据集,用于训练和评估AI智能体
  • 标签: 计算机使用、GUI智能体、多模态、人机交互、屏幕录制、视觉语言动作、模仿学习、智能体训练、预训练、微调、监督微调、视觉语言模型、动作预测

数据集规模

  • 任务总数: 3,167个已完成任务
  • 数据集大小:
    • Parquet文件(含嵌入式截图): 7.87 GB
    • 视频文件: 16.9 GB
    • DOM快照: 24.4 GB
    • 总计: 49.2 GB

任务分布

  • 浏览器任务: 2,220个(70.1%)
  • 计算机任务: 947个(29.9%)
  • 难度分布:
    • 简单: 79.4%
    • 中等: 16.7%
    • 困难: 3.9%
  • 平台分布:
    • 跨平台: 95.1%
    • Windows: 4.5%
    • macOS: 0.4%

数据覆盖范围

  • 视频: 100%覆盖(3,167/3,167任务),MP4格式
  • 截图: 42.6%覆盖(1,349/3,167任务),14,740张图像嵌入parquet文件
  • DOM快照: 55.8%覆盖(1,766/3,167任务)
    • 浏览器任务: 77.5%有DOM快照
    • 计算机任务: 4.8%有DOM快照

内容多样性

  • 网站: 294个独特网站(Amazon、Google、ArXiv、Apple、Booking等)
  • 应用程序: 173个独特应用程序(MS Office套件、文件资源管理器、电子邮件客户端等)
  • 31个子类别:
    • 搜索与研究: 928个(29.3%)
    • 购物与电子商务: 490个(15.5%)
    • 社交媒体与通信: 210个(6.6%)
    • 新闻与媒体: 149个(4.7%)
    • 文档编辑: 127个(4.0%)
    • 教育与学习: 101个(3.2%)
    • 导航与地图: 93个(2.9%)
    • 电子邮件操作: 71个(2.2%)
    • 其他23个类别

任务数据结构

元数据字段

  • unique_data_id、taskId、task_name、category、subCategory、application_website、tags、benchmark、appType、difficulty、os、requires_login、completedAt

多模态数据

  • screenshots、video_file、dom_snaps_file、events、reasoning_steps、metadata

使用场景

  • 训练计算机使用AI智能体(视觉-语言-动作模型)
  • GUI交互的强化学习
  • 计算机使用能力的基准评估
  • 人机交互模式研究
  • 辅助工具开发
  • 软件测试和质量保证自动化

数据收集与限制

  • 使用定制计算机交互捕获工具收集
  • 包含100个重复行(总计3,267行,3,167个独特任务)
  • 可能包含供应商交互中的个人身份信息
  • 部分任务可能引用已更改的应用程序或网站

引用信息

bibtex @dataset{psai_computer_use_2025, title={Computer Use Data - Paradigm Shift AI}, author={Anais Howland and Ashwin Thinnappan and Jameel Shahid Mohammed}, organization={Paradigm Shift AI}, year={2025}, publisher={HuggingFace}, url={https://huggingface.co/datasets/anaisleila/computer-use-data-psai} }

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能与计算机交互研究领域,该数据集通过精心设计的采集流程构建而成。研究人员开发了专门的计算机交互捕获工具,记录人类执行各类计算任务时的完整交互过程。数据收集涵盖3167个独立任务,由签署公开披露协议的志愿者在真实环境中完成,采集内容包含屏幕视频录制、键盘鼠标输入时间戳、网页DOM结构快照以及可访问性树信息等多模态数据流。
特点
该数据集展现出显著的多模态特性与内容多样性。其核心特征在于完整覆盖了浏览器任务与计算机任务两大类别,分别占比70.1%和29.9%,涵盖搜索研究、电子商务、文档编辑等31个子类别。数据形态包含100%视频覆盖率、42.6%的嵌入式截图和55.8%的DOM快照,同时整合了294个独特网站和173个应用程序的交互记录。这种多维度的数据组织方式为研究人机交互模式提供了丰富素材。
使用方法
针对不同研究需求,该数据集提供了灵活的使用方案。研究者可通过HuggingFace数据集库直接加载核心数据集,快速获取元数据和嵌入式截图;也可按需下载特定任务的视频文件与DOM快照。数据集支持基于难度等级、操作系统类型和任务类别等条件的筛选过滤,便于针对性研究。这种分层访问机制既保证了数据获取的高效性,又满足了深度分析对完整多模态数据的需求。
背景与挑战
背景概述
在人工智能与人类计算机交互融合的前沿领域,Paradigm Shift AI团队于2025年发布了computer-use-data-psai数据集,标志着多模态智能体研究的重要进展。该数据集聚焦于计算机使用场景下的智能代理训练,通过整合屏幕录像、交互事件与界面结构数据,构建了涵盖3167项任务的资源库。其核心研究目标在于解决视觉-语言-动作模型的协同学习问题,为GUI交互自动化、辅助技术开发等应用提供标准化评估基准,推动了人机协作智能系统的范式革新。
当前挑战
构建过程中面临多模态数据同步的技术难题,屏幕录像与DOM快照的覆盖率存在显著差异,仅55.8%的网页任务具备完整界面结构数据。在领域问题层面,该数据集需应对动态图形界面下的动作预测挑战,包括跨平台交互模式识别、时序行为理解等复杂问题。数据采集时还面临隐私保护与系统兼容性平衡,部分任务因应用程序版本迭代产生语义漂移,且存在0.3%的重复样本需要专项清洗。
常用场景
经典使用场景
在人机交互研究领域,该数据集为训练智能代理执行图形界面操作提供了关键支持。通过整合屏幕录像、DOM快照与交互事件流,研究者能够构建端到端的视觉-语言-动作模型,使AI系统学习人类在浏览器任务和计算机应用中的操作模式,涵盖从简单搜索到复杂文档编辑的多样化场景。
实际应用
在工业实践层面,该数据集支撑了自动化软件测试系统的开发,通过复现人类操作流程提升质量检测效率。其记录的标准化交互范式为无障碍辅助工具提供了训练样本,同时在企业级业务流程自动化、智能桌面助手等场景中,为降低人工操作成本提供了技术实现路径。
衍生相关工作
基于该数据集衍生的经典研究包括视觉语言动作模型的预训练框架构建,如将屏幕感知与动作生成相结合的端到端代理架构。多项工作利用其多模态特性开发了新型评估基准,推动了基于DOM结构的网页操作智能体、跨平台任务迁移学习等方向的方法创新与性能突破。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作