mmskills

Hugging Face2026-05-13 更新2026-05-15 收录

下载链接：

https://huggingface.co/datasets/zhangkangning/mmskills

下载链接

链接失效反馈

官方服务：

资源简介：

Towards MMSkills数据集包含了Towards MMSkills项目所使用的公共MMSkill技能包，旨在支持多模态代理和GUI（图形用户界面）代理的研究与开发，特别关注计算机使用和游戏环境下的任务。数据集主要包含三个部分：OSWorld Ubuntu技能包、VAB-Minecraft技能包和Mario技能包。OSWorld Ubuntu技能按应用领域组织，涵盖了Chrome、GIMP、Calc、Impress、Writer、多应用交互、操作系统、Thunderbird、VLC和VS Code等多个软件环境，总计包含360个任务、247个技能、879张状态卡片和1898个视图。VAB-Minecraft包包含24个技能、79张卡片和165个视图。Mario包包含10个技能和34个卡片/视图。每个技能包通常包含一个描述操作流程的`SKILL.md`文件、一个`runtime_state_cards.json`文件（包含运行时状态信息）以及`Images/`目录下的视觉参考图像。数据集适用于视觉问答（VQA）和图像到文本等任务，可用于训练和评估智能体在复杂图形界面或游戏世界中的理解和操作能力。需要注意的是，公开版本已移除了内部构建元数据、本地绝对路径和模型评估轨迹；VAB-Minecraft和Mario包仅保留了`runtime_state_cards.json`，未包含`state_cards.json`、`plan.json`等完整内部文件；公开的字数统计基于清理后的`SKILL.md`文件，可能与论文中报告的内部计数略有差异。

The Towards MMSkills dataset includes public MMSkill skill packages used in the Towards MMSkills project, aiming to support research and development of multimodal agents and GUI (Graphical User Interface) agents, with a particular focus on tasks in computer usage and gaming environments. The dataset primarily consists of three parts: the OSWorld Ubuntu skill package, the VAB-Minecraft skill package, and the Mario skill package. The OSWorld Ubuntu skills are organized by application domain, covering software environments such as Chrome, GIMP, Calc, Impress, Writer, multi-application interaction, operating system, Thunderbird, VLC, and VS Code, totaling 360 tasks, 247 skills, 879 state cards, and 1898 views. The VAB-Minecraft package contains 24 skills, 79 cards, and 165 views. The Mario package includes 10 skills and 34 cards/views. Each skill package typically includes a `SKILL.md` file describing the operational process, a `runtime_state_cards.json` file containing runtime state information, and visual reference images in the `Images/` directory. The dataset is suitable for tasks such as visual question answering (VQA) and image-to-text, and can be used to train and evaluate agents understanding and operational capabilities in complex graphical interfaces or game worlds. It should be noted that the public version has removed internal construction metadata, local absolute paths, and model evaluation traces; the VAB-Minecraft and Mario packages only retain `runtime_state_cards.json`, lacking complete internal files like `state_cards.json` and `plan.json`; the public word count is based on cleaned `SKILL.md` files and may slightly differ from the internal counts reported in the paper.

创建时间：

2026-05-11

搜集汇总

数据集介绍

构建方式

MMSkills数据集由OSWorld、VAB-Minecraft和Mario三大技能包构成，覆盖图形用户界面代理与多模态智能体领域的复杂任务。OSWorld技能包按应用领域组织，包含Chrome、GIMP、Calc等多个Ubuntu应用域，每个域下包含若干技能包；VAB-Minecraft与Mario技能包则分别面向游戏环境中的视觉-行为对齐任务。每个技能包均包含一份SKILL.md流程文档、runtime_state_cards.json运行时状态卡集合，以及Visual/Images文件夹下的视觉参考图像。数据集的构建去除了内部构建元数据、局部路径与评估轨迹，保留了可复现的结构化技能描述与状态转换信息。

特点

该数据集最显著的特点在于其多环境、多层次的任务覆盖与细粒度的状态表征。OSWorld部分涵盖360个任务，以247个技能和879张状态卡完整记录了操作前后的界面转换，其中16.3%的状态卡为跨步骤的过渡卡片，尤以GIMP域的46.8%为最高，凸显了复杂软件操作中状态变迁的密集性。VAB-Minecraft与Mario技能包则精简保留了运行时状态卡，去除了计划文件与元引用，聚焦于可执行的技能链。整个数据集以技能为核心单元，通过状态卡、视角图与过渡标识，为多模态代理的模仿学习与推理评估提供了结构化基准。

使用方法

使用者可直接加载数据集中各技能包的SKILL.md文件获取详细操作流程，借助runtime_state_cards.json解析每一步的界面状态变化，结合Images文件夹下的视觉参考进行多模态对齐训练或评估。OSWorld技能包推荐按应用域拆分使用，兼顾任务难度与场景多样性；VAB-Minecraft与Mario包则适合作为游戏代理技能学习的测试集。统计数据位于statistics目录下的JSON与CSV文件中，可用于分析任务分布与技能复杂度。数据集以HuggingFace格式发布，支持通过datasets库直接加载，便于集成到现有的视觉问答与图像到文本的微调流程中。

背景与挑战

背景概述

MMSkills数据集由研究机构于近期发布，聚焦于多模态智能体在图形用户界面（GUI）交互环境中的技能评估。该数据集通过整合不同域下的一系列技能包，例如涵盖Ubuntu操作系统的跨应用任务（如Chrome、GIMP、LibreOffice组件等）、Minecraft游戏中的虚拟建筑与操作技能，以及马里奥游戏中的经典控制任务，构建了多元化的评估框架。其核心研究问题在于量化智能体在多模态感知能力、任务规划与执行之间的协同程度，以及在复杂、异构环境中获取与转移技能的能力。MMSkills的出现为衡量GUI智能体的核心能力提供了标准化基准，对推动多模态智能体在现实世界（如办公自动化、游戏辅助与建模）的研究具有重要影响。

当前挑战

该数据集所面临的核心挑战包括：1) 领域问题层面，多模态智能体需在动态、未完全标注的GUI环境中进行精细操作与推理，这对模型从视觉状态到动作决策的映射能力提出极高要求，涉及如何识别界面元素、理解操作序列及应对环境变化；2) 数据集构建过程中，跨不同操作系统与应用域的任务具有异构性，需要精心设计技能提取与状态表征体系；为确保评测的公平与可复现，还需解决内部生成文件、局部路径与构建信息的脱敏问题，并平衡公开数据包与论文内部使用的差异，从而维持数据质量与标准化评估的一致性。

常用场景

经典使用场景

MMSkills数据集在视觉问答与多模态代理领域中极具代表性，被广泛用于评估和训练具备图形用户界面（GUI）理解与操作能力的多模态智能体。该数据集汇聚了来自OSWorld Ubuntu平台的多应用程序域、VAB-Minecraft虚拟环境及经典Mario游戏三大场景的精细化技能包，每个技能包以结构化的SKILL.md流程文档、运行时状态卡片及可视化参照图片呈现，为研究者提供了从日常办公软件操作到复杂游戏交互的多样任务模板。通过覆盖Chrome、GIMP、Calc、Writer等近十个应用域以及虚拟世界探索任务，该数据集成为衡量多模态代理在真实世界与模拟环境中任务执行能力的关键基准，尤其适用于技能拆解、状态跟踪与跨域泛化能力的系统测试。

衍生相关工作

基于MMSkills数据集衍生出的经典工作主要集中在多模态代理架构优化与技能学习算法创新两大方向。其中，OSWorld技能包推动了GUI代理领域的状态感知网络设计与提示工程研究，催生了如ScreenAgent、CogAgent等将屏幕截图直接映射为操作的结构化模型。VAB-Minecraft分区启发了虚拟环境中的长期任务规划与记忆管理研究，促进了分层强化学习与语言条件策略的结合。此外，该数据集中的过渡卡片统计指标被广泛引用为评估代理鲁棒性的标准度量，衍生出关于状态变迁预测与备份策略的后续工作。其公开的统计比较报告也为基准复现与跨模型公平评估提供了方法论基础，成为该领域论文中不可或缺的对照资源。

数据集最近研究