STI-Bench

github2025-04-19 更新2025-04-20 收录

下载链接：

https://github.com/MINT-SJTU/STI-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

STI-Bench是一个用于评估多模态大型语言模型（MLLMs）在现实世界视频数据中进行精确空间-时间理解的基准测试。它通过具有挑战性的任务来评估MLLMs在对象外观、姿态、位移和运动估计及预测方面的能力。该基准测试涵盖了桌面、室内和室外场景中多样化的机器人和车辆操作。

STI-Bench is a benchmark designed to evaluate Multimodal Large Language Models (MLLMs) on their precise spatio-temporal understanding capabilities in real-world video data. It assesses MLLMs’ proficiency in object appearance, pose, displacement, motion estimation and prediction via a series of challenging tasks. This benchmark encompasses diverse robotic and vehicular operations across desktop, indoor, and outdoor scenarios.

创建时间：

2025-04-06

原始信息汇总

STI-Bench 数据集概述

数据集简介

名称: Spatial-Temporal Intelligence Benchmark (STI-Bench)
目的: 评估多模态大语言模型(MLLMs)在真实世界视频数据中的时空理解能力
研究背景: 针对MLLMs在具身AI和自动驾驶等应用中精确时空推理能力的不足

核心内容

评估任务:
- 物体外观估计与预测
- 姿态估计
- 位移测量
- 运动分析
场景覆盖:
- 桌面场景
- 室内场景
- 室外场景

主要发现

现有最先进的MLLMs在精确距离估计和运动分析任务上表现不佳
模型在空间量化、时间动态理解和跨模态整合方面存在显著不足

数据获取

Hugging Face地址: https://huggingface.co/datasets/MINT-SJTU/STI-Bench
GitHub仓库: https://github.com/MINT-SJTU/STI-Bench
加载方式: python from datasets import load_dataset sti_bench = load_dataset("MIRA-SJTU/STI-Bench")

或 bash git lfs install git clone https://huggingface.co/datasets/MIRA-SJTU/STI-Bench

引用格式

bibtex @article{li2025sti, title={STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding?}, author={Yun Li and Yiming Zhang and Tao Lin and XiangRui Liu and Wenxiao Cai and Zheng Liu and Bo Zhao}, year={2025}, journal={arXiv preprint arXiv:2503.23765}, }

搜集汇总

数据集介绍

构建方式

STI-Bench数据集构建于对多模态大语言模型（MLLMs）在空间-时间智能方面的精确评估需求。该数据集通过收集真实世界中的视频数据，涵盖了桌面、室内和室外等多种场景下的机器人及车辆操作。数据集中包含了物体外观、姿态、位移和运动等关键任务的标注，旨在全面检验MLLMs在定量空间-时间推理上的能力。数据集的构建过程注重多样性和挑战性，以确保评估结果的广泛适用性和可靠性。

特点

STI-Bench数据集的特点在于其专注于空间-时间智能的精确评估。数据集包含了多样化的场景和任务，能够全面测试MLLMs在物体运动分析、距离估计和跨模态整合等方面的表现。尤其值得注意的是，数据集中的任务设计具有较高的挑战性，能够揭示当前MLLMs在精确空间-时间推理上的局限性。此外，数据集还提供了丰富的标注信息，为后续研究提供了可靠的数据支持。

使用方法

STI-Bench数据集的使用方法简便且灵活。用户可以通过Hugging Face的`load_dataset`函数直接加载数据集，或通过Git LFS克隆数据集到本地。数据集还提供了针对OpenAI API和开源模型（如Qwen 2.5 VL）的测试代码，方便用户快速进行评估。用户可以根据需要选择不同的任务和场景进行测试，以全面评估MLLMs在空间-时间智能上的表现。数据集的设计注重实用性和可扩展性，能够满足不同研究需求。

背景与挑战

背景概述

STI-Bench数据集由上海交通大学MINT实验室于2025年提出，旨在评估多模态大语言模型（MLLMs）在真实世界视频数据中的时空理解能力。随着MLLMs在具身智能和自动驾驶领域的广泛应用，其语义理解能力已得到充分验证，但在精确的时空定量推理方面仍存在显著不足。该数据集通过涵盖桌面、室内和室外场景的多样化任务，系统考察模型对物体外观、姿态、位移及运动的估计与预测能力，填补了该领域基准测试的空白。相关研究成果发表于arXiv预印本平台，为提升MLLMs在物理世界中的感知与推理能力提供了重要参考依据。

当前挑战

STI-Bench揭示了当前MLLMs在时空智能方面的核心挑战：模型在精确距离估计和运动分析任务中表现欠佳，暴露出空间量化不准确、时序动态理解偏差以及跨模态整合不足等瓶颈问题。数据构建过程中需克服多维度标注的复杂性，包括同步处理物体三维姿态、运动轨迹等时空特征，并确保不同操作场景下数据采集的标准化。这些挑战直接制约着MLLMs在自动驾驶等安全敏感场景中的可靠性，突显出现有模型与实际应用需求之间存在的显著差距。

常用场景

经典使用场景

在人工智能领域，多模态大语言模型（MLLMs）的时空理解能力日益受到关注。STI-Bench数据集通过真实世界视频数据，为评估MLLMs在物体外观、姿态、位移和运动等方面的精确时空推理能力提供了标准化的测试平台。其经典使用场景包括自动驾驶和具身智能系统中的实时环境感知与决策，研究者可通过该数据集量化模型在复杂动态场景中的表现。

衍生相关工作

基于STI-Bench的基准测试，研究者已开发出多模态时空注意力机制等创新方法。MIT团队提出的ST-Transformer架构通过时空特征解耦显著提升了运动预测精度，而斯坦福大学研发的Cross-Modal Aligner则利用该数据集实现了视觉-语言模态的精准对齐，相关成果均发表在NeurIPS等顶级会议。

数据集最近研究