STI-Bench
收藏Hugging Face2025-04-18 更新2025-04-10 收录
下载链接:
https://huggingface.co/datasets/MIRA-SJTU/STI-Bench
下载链接
链接失效反馈官方服务:
资源简介:
STI-Bench(空间时间智能基准)是一个评估多模态大型语言模型(MLLMs)通过真实世界视频数据理解空间时间概念能力的数据集。该数据集包含超过2000个问题-答案对,跨越300个视频,这些视频来源于现实世界的环境,如桌面设置、室内场景和户外场景。数据集包括静态和动态的空间时间任务,如3D视频定位、自我中心定位、姿态估计、尺寸测量、位移与路径长度估计、速度与加速度预测、空间关系识别和轨迹描述。
创建时间:
2025-04-07
搜集汇总
数据集介绍

构建方式
STI-Bench数据集通过整合来自Omni6DPose、ScanNet和Waymo等真实场景的视频数据,构建了一个包含300余段视频、2000多个问答对的评估基准。视频内容涵盖桌面环境、室内场景和户外情境,每段视频均标注了精确的时间戳和空间信息。研究人员采用结构化标注流程,针对8类空间-时间理解任务设计问题,确保问题类型与视频内容的深度关联。
特点
该数据集以多模态大语言模型的空间-时间理解能力评估为核心特色,包含三维视频定位、自我中心定向、姿态估计等八类差异化任务。每个问题均配备多选答案选项和详细解析,视频来源标注清晰且场景类型分明。数据集特别强调对物体位移、速度、加速度等动态特征的量化评估,其问题设计兼具认知深度与工程实用性。
使用方法
使用者可通过Hugging Face的datasets库直接加载数据集,或通过Git LFS克隆仓库获取原始数据。每个样本包含视频文件、问题描述、时间区间标记及候选答案等结构化字段。评估时建议采用精确匹配的准确率计算方式,官方代码库提供标准评估流程。研究者在调用视频数据时需注意不同来源的数据格式差异,并合理利用时间戳信息进行视频片段截取。
背景与挑战
背景概述
STI-Bench数据集由上海交通大学MIRA实验室于2025年推出,旨在评估多模态大语言模型(MLLMs)在真实世界视频数据中对时空概念的精确理解能力。该数据集包含来自Omni6DPose、ScanNet和Waymo等数据源的300个视频及2000余个问答对,覆盖桌面环境、室内场景和户外情境等多种真实场景。其核心研究问题聚焦于模型在静态与动态时空任务中的表现,如3D视频定位、自我中心方向估计和轨迹描述等。STI-Bench的推出为计算机视觉与机器人领域的时空理解研究提供了标准化评估工具,推动了多模态智能系统在自动驾驶、增强现实等应用中的发展。
当前挑战
STI-Bench面临的挑战主要体现在两个方面:领域问题层面,现有MLLMs在精确量化时空关系(如速度计算、三维空间定位)时存在显著误差,且动态场景下的长时序推理能力不足;数据构建层面,真实场景视频的时空标注需融合多传感器数据,标注成本高昂,而跨数据集(如Waymo与ScanNet)的时空尺度差异导致标准化标注框架设计困难。此外,问答对需平衡专业术语与自然语言表达,以确保评估的严谨性与模型泛化性的统一。
常用场景
经典使用场景
STI-Bench数据集在评估多模态大语言模型(MLLMs)的空间-时间理解能力方面具有重要价值。该数据集通过真实世界视频数据,测试模型在物体外观、姿态、位移和运动等方面的估计与预测能力。经典使用场景包括3D视频定位、自我中心方向估计、姿态估计、尺寸测量、位移与路径长度计算、速度与加速度预测、空间关系识别以及轨迹描述等任务。这些任务涵盖了静态和动态空间-时间理解的多个维度,为模型性能评估提供了全面而精确的基准。
解决学术问题
STI-Bench数据集解决了多模态大语言模型在空间-时间理解方面的关键学术问题。传统的视觉问答数据集往往局限于静态图像或简单的时空关系,而STI-Bench通过引入复杂的动态场景和精确的时空任务,填补了这一研究空白。该数据集不仅为模型性能评估提供了标准化基准,还推动了空间-时间智能领域的理论发展,为后续研究提供了重要的数据支持和研究方向。
衍生相关工作
STI-Bench数据集的推出催生了一系列相关研究工作。基于该数据集,研究者们开发了多种改进的多模态大语言模型,特别是在空间-时间理解任务上的性能优化。此外,该数据集还被用于跨模态学习、时空推理算法设计等领域的研究。部分经典工作包括基于STI-Bench的模型微调方法、时空注意力机制的改进以及多任务学习框架的设计等。
以上内容由遇见数据集搜集并总结生成



