Spacewalk-18

Name: Spacewalk-18
Creator: 布朗大学
Published: 2024-03-22 09:21:14
License: 暂无描述

arXiv2024-03-22 更新2024-06-21 收录

下载链接：

https://brownpalm.github.io/Spacewalk-18/

下载链接

链接失效反馈

官方服务：

资源简介：

Spacewalk-18数据集是由布朗大学创建的，专注于多模态和长形式程序视频理解的基准。该数据集包含来自国际空间站的18个太空行走记录，总时长达到96小时，涵盖了456个动画步骤的详细标注。数据集旨在评估模型在处理长时视频和多模态信息（如视觉和语音）时的能力，特别是在未见过的环境中的泛化能力。通过两个任务：步骤识别和视频内检索，Spacewalk-18挑战了现有视频理解模型的极限，并强调了开发新方法以提高这些任务性能的必要性。

The Spacewalk-18 dataset is a benchmark for multimodal and long-form procedural video understanding, developed by Brown University. It comprises 18 spacewalk recordings sourced from the International Space Station, with a total duration of 96 hours, and includes detailed annotations for 456 animated procedural steps. This dataset aims to evaluate a model's ability to process long-duration videos and multimodal information such as visual and audio content, particularly its generalization capability in unseen environments. Through two tasks—step recognition and in-video retrieval—Spacewalk-18 pushes the boundaries of existing video understanding models and highlights the necessity of developing novel methods to boost performance on these tasks.

提供机构：

布朗大学

创建时间：

2023-12-01

搜集汇总

数据集介绍

构建方式

Spacewalk-18数据集的构建依托于国际空间站18次舱外活动的录像，总时长达96小时。其标注过程采用了一种创新的高效协议：首先通过PySceneDetect镜头边界检测算法将长视频过度分割为短片段，确保每个片段最多包含一个步骤；随后，基于每次任务动画预览中手动分割并标注的步骤列表，设计专门的标注工具，让标注者在观看片段时从预定义步骤标签中选择，并允许访问无限制的上下文视频以辅助判断；每个片段由至少三名标注者独立标注，采用多数投票确定最终标签；最后，将相邻且标签相同的片段合并，形成连续的步骤边界，从而获得结构化的时间分段标注。这一流程显著降低了人工标注的复杂度，同时确保了标注的准确性和一致性。

特点

Spacewalk-18数据集的核心特点体现在其新颖领域、多模态与长时程特性上。该数据集专注于太空行走这一独特领域，其视觉内容与日常家居场景截然不同，为模型领域泛化能力提供了严峻测试。数据集天然具备多模态性质，融合了视觉录像和语音转录文本，任务解决往往需要跨模态信息的有效整合。此外，数据集具有显著的长时程特性，平均片段时长约92秒，且根据时间证书度量，任务理解平均需要约140秒的上下文，属于“超长时程视频数据集”范畴。数据集包含455个动画步骤标签，涵盖了51种多样化的对象和47种原子动作，呈现出丰富的开放词汇特性。

使用方法

Spacewalk-18数据集主要用于评估视频-语言模型在步骤识别和视频问答两项任务上的性能。在步骤识别任务中，模型需要根据给定时间戳及上下文窗口内的视频片段和转录文本，从该次任务对应的步骤列表（含“无关”类别）中预测当前发生的步骤。评估时采用准确率、平均精度均值（mAP）和交并比（IoU）等指标。在视频问答任务中，模型需要基于长达一小时的视频片段，回答涉及高层次目标或需要时空定位与推理的多种选择题。数据集已划分为训练、验证和测试集（比例10:2:6），支持零样本评估、最后一层微调或全层微调等多种实验设置，旨在系统衡量模型在新领域泛化、长时程上下文理解以及多模态信息利用方面的能力。

背景与挑战

背景概述

Spacewalk-18是由布朗大学研究人员于近期提出的一个多模态长时程程序性视频理解基准数据集，旨在评估视频语言模型在全新领域中的泛化能力。该数据集聚焦于国际空间站舱外活动记录，包含18次太空行走任务，总计96小时的密集标注视频，涵盖455个动画步骤。其核心研究问题在于推动具身智能体从人类演示中学习结构化技能，要求模型能够对长时程、多模态视频进行时序分割与语义理解，并泛化至前所未有的太空操作领域。该数据集的建立标志着程序性视频理解研究从日常家庭场景向极端专业化环境的拓展，为测试模型在视觉与语言模态融合、长时上下文依赖建模以及跨领域适应等关键能力提供了重要基准。

当前挑战

Spacewalk-18所应对的核心领域挑战在于程序性视频的结构化理解与跨领域泛化。具体而言，模型需在视觉内容高度特异（如太空微重力环境、宇航服操作）且与训练数据分布显著不同的情况下，准确识别视频中的动作步骤并进行时空推理。数据构建过程中的挑战尤为突出：首先，太空行走视频通常长达7至8小时，且单个步骤的时序边界可能因任务并行或镜头切换而碎片化，使得传统密集标注方法效率低下；其次，标注需协调视觉画面与语音解说之间的异步关联，并处理大量与核心任务无关的片段（如任务控制中心画面）。为此，研究团队创新性地采用了基于镜头边界检测的过分割标注协议，通过将长视频预切分为至多包含一个步骤的短片段，并允许多标注员在无限上下文支持下进行标签选择，显著提升了标注效率与一致性。

常用场景

经典使用场景

在视频理解领域，Spacewalk-18数据集被广泛用于评估模型在跨领域泛化、长时序上下文整合以及多模态信息融合方面的能力。其核心任务——步骤识别与视频问答——要求模型能够解析国际空间站出舱活动录像，将长达数小时的多模态视频流分割为结构化的操作步骤序列。这一场景模拟了智能体在陌生环境中通过观察人类演示来学习复杂流程的典型需求，为研究模型如何从有限样本中提取并泛化结构化知识提供了标准化的测试平台。

衍生相关工作

Spacewalk-18的推出激发了后续一系列针对长视频、跨领域理解的研究。其采用的时序凭证度量方法被扩展用于量化其他数据集的“长程性”。在模型架构层面，研究受其启发，进一步探索了长时序特征库、时序压缩机制以及基于摘要的少样本适应策略。同时，该数据集常与EgoSchema、Perception Test等基准并列使用，共同构成评估模型在开放域与极端域泛化能力的综合体系。其标注协议与工具也为其他长视频结构化标注任务提供了效率范本。

数据集最近研究