STI-Bench

github2025-04-18 更新2025-04-20 收录

下载链接：

https://github.com/MIRA-SJTU/STI-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

STI-Bench是一个用于评估多模态大语言模型（MLLMs）在现实世界视频数据中进行精确空间-时间推理能力的基准数据集。它通过具有挑战性的任务来评估MLLMs在物体外观、姿态、位移和运动估计及预测方面的表现。该基准涵盖了桌面、室内和室外场景中多样化的机器人和车辆操作。

STI-Bench is a benchmark dataset designed to evaluate the precise spatial-temporal reasoning abilities of multi-modal large language models (MLLMs) on real-world video data. It assesses the performance of MLLMs in object appearance, posture, displacement, and motion estimation and prediction through challenging tasks. The benchmark encompasses a diverse range of robotic and vehicle operations across desktop, indoor, and outdoor scenes.

创建时间：

2025-04-06

原始信息汇总

STI-Bench数据集概述

数据集简介

名称：STI-Bench（Spatial-Temporal Intelligence Benchmark）
目的：评估多模态大语言模型（MLLMs）在真实世界视频数据中的精确时空理解能力
研究背景：针对MLLMs在具身AI和自动驾驶等实际应用中的定量时空推理能力不足的问题

核心内容

评估任务：
- 物体外观估计与预测
- 姿态估计与预测
- 位移估计与预测
- 运动分析
场景覆盖：
- 桌面场景
- 室内场景
- 室外场景

主要发现

当前最先进的MLLMs在这些任务上表现不佳
特别是在精确距离估计和运动分析任务上存在显著困难

数据获取

Hugging Face地址：https://huggingface.co/datasets/MINT-SJTU/STI-Bench
加载方式： python from datasets import load_dataset sti_bench = load_dataset("MIRA-SJTU/STI-Bench")

或 bash git lfs install git clone https://huggingface.co/datasets/MIRA-SJTU/STI-Bench

引用格式

bibtex @article{li2025sti, title={STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding?}, author={Yun Li and Yiming Zhang and Tao Lin and XiangRui Liu and Wenxiao Cai and Zheng Liu and Bo Zhao}, year={2025}, journal={arXiv preprint arXiv:2503.23765}, }

搜集汇总

数据集介绍

构建方式

STI-Bench数据集通过精心设计的实验框架构建，旨在评估多模态大语言模型（MLLMs）在真实世界视频数据中的时空理解能力。数据集涵盖了桌面、室内和室外等多种场景，任务设计包括物体外观估计、姿态预测、位移计算和运动分析等多个维度。数据采集过程中，研究团队采用了多样化的机器人及车辆操作视频，确保数据覆盖广泛且具有代表性。通过严格的标注流程和验证机制，保证了数据的高质量和可靠性。

特点

STI-Bench数据集以其对多模态大语言模型在时空智能方面的全面评估而著称。数据集包含多样化的任务设计，特别强调精确的距离估计和运动分析能力，揭示了当前先进模型在这些任务中的显著不足。其独特之处在于覆盖了多种实际应用场景，从桌面操作到复杂的户外环境，为研究者提供了丰富的测试基准。数据集的定量分析结果直观展示了模型在时空理解方面的局限性，为未来研究指明了方向。

使用方法

STI-Bench数据集可通过Hugging Face平台直接加载，用户只需使用datasets库中的load_dataset函数即可便捷获取。对于希望本地使用的用户，数据集支持通过git-lfs工具克隆到本地。此外，研究团队还提供了针对OpenAI API及开源模型如Qwen 2.5 VL的测试代码，方便用户快速开展评估工作。数据集的使用文档详细说明了各项任务的评估指标和流程，确保研究者能够准确复现实验结果并进行深入分析。

背景与挑战

背景概述

STI-Bench数据集由上海交通大学MINT实验室于2025年提出，旨在评估多模态大语言模型（MLLMs）在真实世界视频数据中的时空理解能力。该数据集聚焦于物体外观、姿态、位移和运动的精确估计与预测，涵盖了桌面、室内和室外等多种场景下的机器人与车辆操作。作为首个系统性评估MLLMs时空智能的基准，STI-Bench填补了该领域在定量化推理方面的研究空白，为具身智能和自动驾驶等实际应用提供了重要的评估工具。相关研究成果已发表在arXiv预印本平台，并受到新华网等主流媒体的关注报道。

当前挑战

STI-Bench揭示了当前MLLMs在时空理解方面面临的核心挑战：在空间量化方面，模型难以精确估计物体距离和位置；在时间动态理解上，对运动轨迹和速度的预测存在显著偏差；跨模态整合能力不足，导致视觉信息与时空推理的协同效率低下。数据构建过程中，研究团队需克服真实场景数据采集的复杂性，包括多视角同步标注、动态物体追踪精度控制，以及量化评估指标的设计等挑战。这些技术难点使得该数据集成为推动MLLMs向精确物理世界理解发展的重要催化剂。

常用场景

经典使用场景

在人工智能领域，多模态大语言模型（MLLMs）的时空理解能力日益受到关注。STI-Bench数据集通过桌面、室内和室外场景下的多样化任务，评估MLLMs在物体外观、姿态、位移和运动估计方面的表现。这一数据集为研究者提供了一个标准化的测试平台，用于验证模型在复杂环境中的时空推理能力，尤其在自动驾驶和具身智能等前沿应用中具有重要价值。

解决学术问题

STI-Bench数据集解决了当前MLLMs在精确时空推理方面的研究空白。通过量化评估模型在距离估计和运动分析等任务中的表现，该数据集揭示了现有模型在空间量化和跨模态整合方面的不足。这不仅为学术界提供了明确的研究方向，也为改进模型在真实世界应用中的可靠性奠定了理论基础。

衍生相关工作

STI-Bench数据集已经催生了一系列关于MLLMs时空理解能力的研究工作。例如，基于该数据集的评估结果，研究者提出了新的跨模态融合方法和时空推理架构。这些工作不仅推动了MLLMs在具身智能和自动驾驶中的应用，还为多模态模型的性能评估设立了新的基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集