SWITCH
收藏数据集概述:SWITCH
SWITCH(Semantic World Interface Tasks for Control & Handling)是一个多模态具身交互基准,专注于理解和评估在真实世界第一人称视角场景中,对有形控制界面(TCIs) 的操作。
核心目标
- 理解、建模和评估对日常有形控制界面的操作,例如:电器面板、灯光控制、办公设备、卫浴设备、厨房电器等。
- 聚焦于长期交互循环:理解界面状态、决定下一步动作、建模状态转换、验证是否达到预期效果。
已发布子集
| 子集 / 配置名称 | 主标注文件 | 行数 | 媒体文件 | 答案/标签说明 |
|---|---|---|---|---|
generation_open |
data2generate_query/queries.json |
108 | 61张图片,18个视频 | 非问答子集;包含提示、动作、约束和预期证据。 |
openqa_hf_500 |
openqa_hf_500/data.jsonl |
500 | 751个文件(386张图片,365个视频) | 无参考答案、评分标准或评估字段。 |
mcq_hf_1500 |
mcq_hf_1500/data.jsonl |
1,500 | 3,526个文件(1,866张图片,1,660个视频) | 无正确答案、标签或选项正确性标记。 |
generation_open用于交互式视频生成和多模态世界建模的开发与定性评估。openqa_hf_500和mcq_hf_1500是公开测试集,用于问答评估;提示和选项公开,答案标签被有意隐藏。
基准能力范围
SWITCH 围绕三项高级能力分组:
- 界面理解 (Interface Understanding)
- 动作与结果推理 (Action and Consequence Reasoning)
- 闭环反思 (Closed-loop Reflection)
评估格式覆盖三种类型:
- 多项选择题 (MCQ)
- 开放式问答 (OpenQA)
- 交互式视频生成
领域/类别
涵盖9个真实世界功能类别:
- 灯光 (Light)
- 卫浴/洁具 (Sanitaryware / Bathroom)
- 饮料 (Beverages / Drink)
- 清洁 (Cleaning)
- 建筑 (Building)
- 生态系统/环境 (Ecosystem / Environment)
- 厨房 (Kitchen)
- 家具 (Furniture)
- 办公 (Office)
数据集结构
.
|-- README.md
|-- SWITCH_overview.png
|-- data2generate_query/
| |-- manifest.json
| |-- queries.json
| |-- single_image/
| -- video/ |-- openqa_hf_500/ | |-- data.jsonl | |-- summary.json | |-- <task_family>/data.jsonl | -- <task_family>/media/
-- mcq_hf_1500/ |-- data.jsonl |-- summary.json |-- <task_family>/data.jsonl -- <task_family>/media/
主要字段说明
generation_open:包含prompt(生成提示)、next_action(动作)、goal_text(目标)、anchor_frame_path(锚定帧)、review_video_path(审查视频)等生成导向的元数据。openqa_hf_500:包含question(问题)、media(媒体列表)、query_img_path或query_video_path(查询媒体路径)。mcq_hf_1500:包含question(问题)、choices(选项,含文本或媒体引用)、media(媒体列表)。
加载方式
可以使用 datasets 库加载:
python
from datasets import load_dataset
generation = load_dataset("BAAI-Agents/SWITCH", "generation_open", split="open") openqa = load_dataset("BAAI-Agents/SWITCH", "openqa_hf_500", split="public_test") mcq = load_dataset("BAAI-Agents/SWITCH", "mcq_hf_1500", split="public_test")
许可协议
- 许可证:Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0)
- 访问状态:上述子集为公开发布。
- 隐藏部分:私有分裂及包含答案的标签被保留,用于受控评估。
预期用途
适用于以下研究方向:
- 有形控制界面的多模态推理
- 第一人称视角的界面理解
- 动作预测与状态转换建模
- 结果验证与恢复推理
- 交互式视频生成与世界建模
- 在真实人类环境中的具身AI评估
局限性与注意事项
- 公开发布版本并非完整的SWITCH基准。
- 公开的问答子集不包含参考答案或正确答案。
- 真实世界的界面交互对微小的视觉差异、延迟效果和特定领域惯例敏感。
- 该数据集仅供研究和基准测试使用,不应用于真实设备的直接控制软件。




