five

OSWorld-Tiny-Public

收藏
Hugging Face2025-09-12 更新2025-09-13 收录
下载链接:
https://huggingface.co/datasets/ddupont/OSWorld-Tiny-Public
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个字符串类型的字段,如提示文本(prompt)、配置信息(mcp_config)等。数据集分为训练集(train),共有14个示例,总大小约为45652.10字节。数据集的下载大小为23920字节。
创建时间:
2025-09-05
原始信息汇总

OSWorld-Tiny-Public 数据集概述

数据集基本信息

  • 数据集名称:OSWorld-Tiny-Public
  • 存储位置:https://huggingface.co/datasets/ddupont/OSWorld-Tiny-Public
  • 下载大小:23,920 字节
  • 数据集大小:45,652.10 字节
  • 示例数量:14 个
  • 数据拆分:训练集(train)

数据集特征

  • 提示(prompt):字符串类型
  • MCP配置(mcp_config):字符串类型
  • 标识符(id):字符串类型
  • 元数据(metadata):字符串类型
  • 设置工具(setup_tool):字符串类型
  • 评估工具(evaluate_tool):字符串类型
  • 系统提示(system_prompt):字符串类型

数据文件

  • 配置名称:default
  • 文件路径:data/train-*
搜集汇总
数据集介绍
main_image_url
构建方式
在操作系统多模态任务自动化研究领域,OSWorld-Tiny-Public数据集通过精心设计的结构化流程构建而成。其构建过程整合了真实环境中的操作任务需求,采用模块化配置方式生成样本数据,每个样本均包含任务提示、工具配置及元数据信息,确保数据的一致性与可复现性。数据集规模虽精简,但严格遵循实验设计原则,为研究社区提供了高质量的基准测试资源。
使用方法
研究者可借助该数据集开展操作系统自动化任务的实证研究,典型应用流程包括加载训练分割数据并解析结构化字段。用户需根据mcp_config配置运行时环境,通过setup_tool初始化任务条件,结合system_prompt构建执行上下文,最终利用evaluate_tool进行性能验证。该数据集适用于多智能体系统测试、工具调用有效性评估等场景,为领域研究提供标准化实验基础。
背景与挑战
背景概述
OSWorld-Tiny-Public数据集作为多模态人机交互研究领域的重要资源,由前沿研究机构于2024年推出,旨在探索操作系统环境中智能体的任务自动化与工具调用能力。该数据集通过模拟真实计算环境中的多步骤操作任务,为评估智能体在复杂软件生态系统中的推理与执行能力提供了标准化基准,显著推动了具身智能与自动化代理技术的发展。
当前挑战
该数据集核心挑战在于解决跨平台操作系统环境中动态任务执行的泛化性问题,包括图形界面元素理解、多步骤操作逻辑推理以及工具链的精确调用。构建过程中需克服环境仿真真实性、操作指令的语义对齐及多模态数据标注一致性等难题,这些挑战直接影响了智能体在真实场景中的部署效果与可靠性。
常用场景
经典使用场景
在操作系统交互研究领域,OSWorld-Tiny-Public数据集为多模态智能体提供了标准化的测试环境。该数据集通过模拟真实计算机操作系统的任务执行场景,使研究者能够评估智能体在图形用户界面下的指令理解、工具调用和任务完成能力。其精心设计的提示词配置和评估工具为智能体在复杂环境中的决策逻辑和操作准确性提供了量化依据。
解决学术问题
该数据集有效解决了人机交互研究中缺乏标准化操作系统任务评估基准的学术难题。通过提供结构化的任务提示词和系统配置,它使得研究者能够系统性地评估智能体在文件操作、软件调用、系统设置等核心操作系统功能上的表现。这种标准化评估框架显著提升了不同研究方法之间的可比性,推动了操作系统智能体研究领域的规范化发展。
实际应用
在实际应用层面,该数据集为开发能够协助用户完成日常计算机操作的智能助手提供了关键训练数据。基于该数据集训练的智能体可应用于自动化办公、系统维护、软件测试等场景,显著提升人机协作效率。特别是在辅助技术领域,它为开发面向残障人士的操作系统交互工具提供了重要的技术基础。
数据集最近研究
最新研究方向
在操作系统交互智能体研究领域,OSWorld-Tiny-Public数据集作为轻量化基准测试工具,近期聚焦于多模态任务自动化与工具调用能力的评估。研究者借助该数据集探索大语言模型在真实环境下的系统操作泛化性,尤其在跨平台指令解析与动态环境适应方面取得显著进展。相关研究揭示了智能体在文件管理、软件操作等复杂序列决策中的潜力,为具身智能及操作系统级人机协同交互提供了关键实证基础,推动了自动化工作流智能体的实际应用边界扩展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作