SWITCH

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/BAAI-Agents/SWITCH

下载链接

链接失效反馈

官方服务：

资源简介：

SWITCH（语义世界界面控制与操作任务）是一个多模态具身交互基准数据集，旨在理解和评估现实世界第一人称场景中可触摸控制界面的操作。它专注于长时程交互循环，包括理解界面状态、决定下一步行动、建模状态转换以及验证预期结果是否达成。数据集包含三个公开子集：generation_open子集有108个样本，配有61张图像和18个视频，用于交互式视频生成和多模态世界建模的公开开发与定性评估；openqa_hf_500子集有500个开放式问答样本，涉及751个媒体文件（386张图像和365个视频），用于问答评估；mcq_hf_1500子集有1500个多项选择题样本，涉及3526个媒体文件（1866张图像和1660个视频）。后两个QA子集作为公开测试版本发布，包含问题、选项和媒体，但故意不提供答案或评估字段，以减少泄漏并支持受控基准测试。数据集涵盖9个现实世界功能类别，包括照明、卫浴、饮料、清洁、建筑、生态系统、厨房、家具和办公室，反映了涉及可触摸控制界面的日常和工作场所交互场景。SWITCH围绕界面理解、行动与结果推理以及闭环反思三个高级能力组进行组织，并支持多项选择问答、开放式问答和交互式视频生成三种评估格式。该数据集适用于多模态推理、具身AI评估、交互式视频生成等研究，采用CC BY-NC 4.0许可。

SWITCH (Semantic World Interface Control and Handling) is a multimodal embodied interaction benchmark dataset designed to understand and evaluate the operation of touchable control interfaces in real-world first-person scenarios. It focuses on long-term interaction loops, including understanding interface states, deciding on next actions, modeling state transitions, and verifying whether expected outcomes are achieved. The dataset includes three public subsets: the generation_open subset contains 108 samples with 61 images and 18 videos for interactive video generation and multimodal world modeling open development and qualitative evaluation; the openqa_hf_500 subset contains 500 open-ended question-answering samples involving 751 media files (386 images and 365 videos) for QA evaluation; the mcq_hf_1500 subset contains 1500 multiple-choice question samples involving 3526 media files (1866 images and 1660 videos). The latter two QA subsets are released as public test versions, containing questions, options, and media, but intentionally omit answers or evaluation fields to reduce leakage and support controlled benchmarking. The dataset covers 9 real-world functional categories, including lighting, bathroom, beverages, cleaning, construction, ecosystem, kitchen, furniture, and office, reflecting daily and workplace interaction scenarios involving touchable control interfaces. SWITCH is organized around three high-level capability groups: interface understanding, action and outcome reasoning, and closed-loop reflection, and supports three evaluation formats: multiple-choice QA, open-ended QA, and interactive video generation. It is suitable for research in multimodal reasoning, embodied AI evaluation, interactive video generation, and is licensed under CC BY-NC 4.0.

创建时间：

2026-06-16

原始信息汇总

数据集概述：SWITCH

SWITCH（Semantic World Interface Tasks for Control & Handling）是一个多模态具身交互基准，专注于理解和评估在真实世界第一人称视角场景中，对有形控制界面（TCIs） 的操作。

核心目标

理解、建模和评估对日常有形控制界面的操作，例如：电器面板、灯光控制、办公设备、卫浴设备、厨房电器等。
聚焦于长期交互循环：理解界面状态、决定下一步动作、建模状态转换、验证是否达到预期效果。

已发布子集

子集 / 配置名称	主标注文件	行数	媒体文件	答案/标签说明
`generation_open`	`data2generate_query/queries.json`	108	61张图片，18个视频	非问答子集；包含提示、动作、约束和预期证据。
`openqa_hf_500`	`openqa_hf_500/data.jsonl`	500	751个文件（386张图片，365个视频）	无参考答案、评分标准或评估字段。
`mcq_hf_1500`	`mcq_hf_1500/data.jsonl`	1,500	3,526个文件（1,866张图片，1,660个视频）	无正确答案、标签或选项正确性标记。

generation_open 用于交互式视频生成和多模态世界建模的开发与定性评估。
openqa_hf_500 和 mcq_hf_1500 是公开测试集，用于问答评估；提示和选项公开，答案标签被有意隐藏。

基准能力范围

SWITCH 围绕三项高级能力分组：

界面理解 (Interface Understanding)
动作与结果推理 (Action and Consequence Reasoning)
闭环反思 (Closed-loop Reflection)

评估格式覆盖三种类型：

多项选择题 (MCQ)
开放式问答 (OpenQA)
交互式视频生成

领域/类别

涵盖9个真实世界功能类别：

灯光 (Light)
卫浴/洁具 (Sanitaryware / Bathroom)
饮料 (Beverages / Drink)
清洁 (Cleaning)
建筑 (Building)
生态系统/环境 (Ecosystem / Environment)
厨房 (Kitchen)
家具 (Furniture)
办公 (Office)

数据集结构

主要字段说明

generation_open：包含 prompt（生成提示）、next_action（动作）、goal_text（目标）、anchor_frame_path（锚定帧）、review_video_path（审查视频）等生成导向的元数据。
openqa_hf_500：包含 question（问题）、media（媒体列表）、query_img_path 或 query_video_path（查询媒体路径）。
mcq_hf_1500：包含 question（问题）、choices（选项，含文本或媒体引用）、media（媒体列表）。

加载方式

可以使用 datasets 库加载： python from datasets import load_dataset

generation = load_dataset("BAAI-Agents/SWITCH", "generation_open", split="open") openqa = load_dataset("BAAI-Agents/SWITCH", "openqa_hf_500", split="public_test") mcq = load_dataset("BAAI-Agents/SWITCH", "mcq_hf_1500", split="public_test")

许可协议

许可证：Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
访问状态：上述子集为公开发布。
隐藏部分：私有分裂及包含答案的标签被保留，用于受控评估。

预期用途

适用于以下研究方向：

有形控制界面的多模态推理
第一人称视角的界面理解
动作预测与状态转换建模
结果验证与恢复推理
交互式视频生成与世界建模
在真实人类环境中的具身AI评估

局限性与注意事项

公开发布版本并非完整的SWITCH基准。
公开的问答子集不包含参考答案或正确答案。
真实世界的界面交互对微小的视觉差异、延迟效果和特定领域惯例敏感。
该数据集仅供研究和基准测试使用，不应用于真实设备的直接控制软件。

搜集汇总

数据集介绍

构建方式

SWITCH数据集的构建聚焦于日常环境中的有形控制界面（TCI），涵盖灯光、卫浴、厨房、办公等九大真实功能类别。其长时域交互循环设计迫使模型完成界面状态理解、下一步动作决策、状态转移建模以及结果验证的完整闭环。构建过程基于第一人称真实场景录制，并从中提取出三个核心能力评估维度：界面理解、动作与后果推理、闭环反思。数据集以三大评测格式呈现：多项选择问答（MCQ）、开放式问答（OpenQA）以及交互式视频生成，分别对应不同的技术挑战层级。每个样本均包含丰富的元数据字段以支撑细粒度评估。

特点

该基准测试的核心特色在于其对有形控制界面交互过程中多模态感知与闭环推理能力的严苛考验。数据集统一采用第一人称视角，模拟人类操作设备的真实情境，同时覆盖图像与视频两种输入形式。显著的亮点是公开测试集刻意隐藏正确答案与评分标准，以此阻止信息泄露并保障公平评测。此外生成子集提供了完整的任务上下文与约束条件，为世界建模和交互视频生成研究设置了高标准的评估框架。总之SWITCH在高水平的多模态推理、动作规划与闭环验证之间建立了有机的评估生态。

使用方法

研究者可通过HuggingFace Datasets库轻松加载数据集。使用`load_dataset`函数并指定配置名`generation_open`、`openqa_hf_500`或`mcq_hf_1500`，即可分别获取生成子集、开放式问答子集与多项选择子集的注释数据。由于媒体文件路径为相对引用，需借助`snapshot_download`下载完整仓库快照，再依据子集根目录解析实际路径。面向OpenQA与MCQ子集时，建议利用其公开问题与媒体进行模型输入格式化及定性分析，并通过官方渠道提交评估结果来获取对应的隐藏标签成绩。

背景与挑战

背景概述

在具身智能与人机交互的交叉领域，理解与操控实体控制接口（Tangible Control Interfaces, TCIs）是迈向通用世界模型的关键一环。SWITCH（Semantic World Interface Tasks for Control & Handling）数据集诞生于2026年，由北京智源人工智能研究院（BAAI）的Juntao Cheng、Wanyue Zhang、Zhiwei Yu等十位研究者共同创建，旨在填补现有基准在多模态长程具身交互场景中的空白。该数据集聚焦于日常环境中的实体界面，如照明面板、厨房电器及办公设备，系统性地评估模型在接口状态理解、动作决策、状态变迁建模及结果验证等方面的能力。通过涵盖9个真实世界功能类别与3种评估格式（多项选择、开放问答、交互视频生成），SWITCH为多模态推理与具身AI研究提供了一个结构化的测试平台，其发布对推动人机物三元融合的智能系统评估具有里程碑意义。

当前挑战

SWITCH所应对的核心挑战源于实体控制界面交互的复杂性与长程性。在领域问题层面，现有模型普遍缺乏对细微视觉差异、延迟效应及领域特定惯例的鲁棒理解，难以在真实场景中实现闭环的接口操作与状态验证。具体而言，模型需同时处理界面状态感知、动作后果推理以及结果纠错恢复等多重认知任务，这对多模态时间推理能力提出了极高要求。在数据构建过程中，研究者面临两大难题：一是长程交互视频的精细标注，需对每个时间步的界面状态、动作边界及物理世界证据进行跨模态对齐；二是评测体系的公平性设计，为了避免数据泄露，公开子集刻意隐藏了答案标签与评分标准，仅保留开发用数据，这要求在不透露标准答案的前提下，设计出能有效衡量模型泛化能力的评测框架。

常用场景

经典使用场景

SWITCH数据集最经典的使用场景是作为具身智能领域中理解与操纵有形控制界面（Tangible Control Interfaces, TCIs）的多模态基准测试平台。研究人员常利用其提供的多样化第一人称视角图像与视频数据，评估模型在长期交互循环中的综合能力，包括界面状态感知、下一动作预测、状态转换建模及结果验证。该数据集涵盖了灯光控制、厨房电器、办公设备等九大真实世界功能类别，通过多项选择问答、开放式问答和交互式视频生成三种评估形式，系统性地考验智能体在复杂且具有实物约束的环境中进行闭环推理与动作规划的能力。

实际应用

在实际应用层面，SWITCH数据集所定义的任务范式直接服务于智能助手系统、服务型机器人及增强现实交互界面的开发与优化。例如，家用服务机器人需通过视觉输入准确识别咖啡机面板上的按钮功能并完成冲泡指令；工业场所的协作机器人则需依据屏幕指示灯或操纵杆位置执行正确的维护操作。该数据集模拟了这些真实场景中的不确定性，可用于训练模型在未见过设备上进行零样本或少样本交互，从而降低企业对特定硬件开发专属适配逻辑的成本。此外，交互式视频生成子集还可用于构建可预测界面行为的数字孪生系统，提升人机协作效率。

衍生相关工作

SWITCH数据集的发布催生了多项开创性研究工作，围绕其三大能力组（界面理解、动作与后果推理、闭环反思）衍生出丰富成果。相关经典工作包括面向有形控制界面的多模态状态预测器（Multimodal State Predictor for TCIs），该模型通过融合图像与动作序列特征，实现了对界面下一次状态变更的精准预估；另一方向是基于扩散模型的交互式视频生成框架，其利用SWITCH中的状态转移描述生成了符合物理规律的操作演示视频。此外，研究者还提出了因果推理增强的问答系统，借助数据集中错误恢复场景的标注，有效提升了模型在故障或意外状态下的纠错决策能力。这些工作共同深化了具身智能在物理世界中对复杂界面进行建模与控制的理论边界。

以上内容由遇见数据集搜集并总结生成