OSWorld-Verified-XLang
收藏Hugging Face2025-08-27 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/hud-evals/OSWorld-Verified-XLang
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含多个字符串字段的数据集,包括提示(prompt)、配置(mcp_config)、ID、元数据(metadata)、设置工具(setup_tool)、评估工具(evaluate_tool)和系统提示(system_prompt)。数据集分为训练集(train),共有369个示例,总大小为1,197,724字节。
创建时间:
2025-08-16
原始信息汇总
数据集概述
基本信息
- 数据集名称: OSWorld-Verified-XLang
- 存储位置: https://huggingface.co/datasets/hud-evals/OSWorld-Verified-XLang
- 数据量: 369个样本
- 总大小: 1,189,237字节
- 下载大小: 243,694字节
数据结构
特征字段
- prompt: 字符串类型
- mcp_config: 字符串类型
- id: 字符串类型
- metadata: 字符串类型
- setup_tool: 字符串类型
- evaluate_tool: 字符串类型
- system_prompt: 字符串类型
数据划分
- 训练集: 包含全部369个样本
配置信息
- 默认配置: 使用data/train-*路径下的数据文件
搜集汇总
数据集介绍

构建方式
在跨语言操作系统任务自动化研究领域,OSWorld-Verified-XLang数据集的构建采用了多模态任务验证框架。该数据集通过系统化采集真实环境中的跨平台操作指令,结合自动化脚本验证每个任务的可行性与一致性。构建过程中严格遵循数据清洗流程,确保任务指令与对应系统操作的精准匹配,并采用结构化存储方式整合任务配置、元数据及评估工具,最终形成包含369个高质量样本的标准化数据集。
使用方法
研究人员可通过加载标准化数据格式直接获取任务配置、系统提示及评估工具集成方案。使用时应依据元数据字段匹配对应操作系统环境,通过内置评估工具量化智能体任务完成度。数据集支持端到端实验流程构建,用户可基于提供的提示模板与工具接口开展跨语言操作系统的自动化研究,系统化验证智能体在复杂环境下的执行效能。
背景与挑战
背景概述
在跨语言操作系统交互研究领域,OSWorld-Verified-XLang数据集于2024年由多模态人工智能研究团队构建,旨在解决跨语言环境下的操作系统任务自动化问题。该数据集聚焦于多语言指令理解与系统操作执行的协同挑战,通过结构化的工作流配置和工具调用框架,为跨语言人机交互系统提供标准化评估基准。其创新性体现在将自然语言处理与操作系统操作深度融合,推动了跨语言智能体在实际应用场景中的技术发展。
当前挑战
该数据集核心挑战在于解决跨语言操作系统任务中的语义对齐与执行精确度问题,具体包括多语言指令的动态解析、跨平台系统操作的泛化性,以及文化语境对交互逻辑的影响。构建过程中面临多语言标注一致性维护、操作系统环境异构性适配,以及真实场景下异常操作路径的模拟等难题,需通过多层次验证机制确保数据质量与任务可复现性。
常用场景
经典使用场景
在跨语言操作系统交互研究中,OSWorld-Verified-XLang数据集为多语言环境下的智能体操作验证提供了标准化的测试平台。该数据集通过包含多语言提示词和工具配置,支持研究者系统评估智能体在多样化语言指令下的系统操作准确性,尤其在图形用户界面自动化任务中表现突出。
解决学术问题
该数据集有效解决了多语言智能体在真实操作系统环境中泛化能力不足的学术难题。通过提供经过验证的跨语言交互样本,它填补了非英语操作系统任务评估的数据空白,为衡量智能体的语言无关性操作能力提供了量化基准,显著推动了跨语言人机交互研究的标准化进程。
实际应用
在实际应用层面,该数据集为开发跨语言办公自动化系统提供了核心训练资源。企业可基于其构建多语言RPA机器人,实现中文、英文等多语种环境下的软件操作自动化。特别是在跨国企业的IT支持系统中,能够显著提升多语言用户的技术支持效率,降低人工操作成本。
数据集最近研究
最新研究方向
在跨语言操作系统交互研究领域,OSWorld-Verified-XLang数据集正推动多语言环境下的智能体任务执行能力突破。当前研究聚焦于构建跨语言工具调用框架,通过统一的多模态提示机制解决语言差异带来的系统操作障碍。该数据集支撑了跨语言指令理解与本地化系统工具适配的前沿探索,尤其在全球化软件生态和低资源语言支持方面产生显著影响,为构建语言无关的操作系统交互范式提供了关键实验基础。
以上内容由遇见数据集搜集并总结生成



