STI-Bench
收藏github2025-04-18 更新2025-04-20 收录
下载链接:
https://github.com/MIRA-SJTU/STI-Bench
下载链接
链接失效反馈官方服务:
资源简介:
STI-Bench是一个用于评估多模态大语言模型(MLLMs)在现实世界视频数据中进行精确空间-时间推理能力的基准数据集。它通过具有挑战性的任务来评估MLLMs在物体外观、姿态、位移和运动估计及预测方面的表现。该基准涵盖了桌面、室内和室外场景中多样化的机器人和车辆操作。
STI-Bench is a benchmark dataset designed to evaluate the precise spatial-temporal reasoning abilities of multi-modal large language models (MLLMs) on real-world video data. It assesses the performance of MLLMs in object appearance, posture, displacement, and motion estimation and prediction through challenging tasks. The benchmark encompasses a diverse range of robotic and vehicle operations across desktop, indoor, and outdoor scenes.
创建时间:
2025-04-06
原始信息汇总
STI-Bench数据集概述
数据集简介
- 名称:STI-Bench(Spatial-Temporal Intelligence Benchmark)
- 目的:评估多模态大语言模型(MLLMs)在真实世界视频数据中的精确时空理解能力
- 研究背景:针对MLLMs在具身AI和自动驾驶等实际应用中的定量时空推理能力不足的问题
核心内容
- 评估任务:
- 物体外观估计与预测
- 姿态估计与预测
- 位移估计与预测
- 运动分析
- 场景覆盖:
- 桌面场景
- 室内场景
- 室外场景
主要发现
- 当前最先进的MLLMs在这些任务上表现不佳
- 特别是在精确距离估计和运动分析任务上存在显著困难
数据获取
-
Hugging Face地址:https://huggingface.co/datasets/MINT-SJTU/STI-Bench
-
加载方式: python from datasets import load_dataset sti_bench = load_dataset("MIRA-SJTU/STI-Bench")
或 bash git lfs install git clone https://huggingface.co/datasets/MIRA-SJTU/STI-Bench
相关资源
- 论文地址:https://arxiv.org/abs/2503.23765
- GitHub代码:https://github.com/MINT-SJTU/STI-Bench
- 项目主页:https://mint-sjtu.github.io/STI-Bench.io/
引用格式
bibtex @article{li2025sti, title={STI-Bench: Are MLLMs Ready for Precise Spatial-Temporal World Understanding?}, author={Yun Li and Yiming Zhang and Tao Lin and XiangRui Liu and Wenxiao Cai and Zheng Liu and Bo Zhao}, year={2025}, journal={arXiv preprint arXiv:2503.23765}, }
搜集汇总
数据集介绍

构建方式
STI-Bench数据集通过精心设计的实验框架构建,旨在评估多模态大语言模型(MLLMs)在真实世界视频数据中的时空理解能力。数据集涵盖了桌面、室内和室外等多种场景,任务设计包括物体外观估计、姿态预测、位移计算和运动分析等多个维度。数据采集过程中,研究团队采用了多样化的机器人及车辆操作视频,确保数据覆盖广泛且具有代表性。通过严格的标注流程和验证机制,保证了数据的高质量和可靠性。
特点
STI-Bench数据集以其对多模态大语言模型在时空智能方面的全面评估而著称。数据集包含多样化的任务设计,特别强调精确的距离估计和运动分析能力,揭示了当前先进模型在这些任务中的显著不足。其独特之处在于覆盖了多种实际应用场景,从桌面操作到复杂的户外环境,为研究者提供了丰富的测试基准。数据集的定量分析结果直观展示了模型在时空理解方面的局限性,为未来研究指明了方向。
使用方法
STI-Bench数据集可通过Hugging Face平台直接加载,用户只需使用datasets库中的load_dataset函数即可便捷获取。对于希望本地使用的用户,数据集支持通过git-lfs工具克隆到本地。此外,研究团队还提供了针对OpenAI API及开源模型如Qwen 2.5 VL的测试代码,方便用户快速开展评估工作。数据集的使用文档详细说明了各项任务的评估指标和流程,确保研究者能够准确复现实验结果并进行深入分析。
背景与挑战
背景概述
STI-Bench数据集由上海交通大学MINT实验室于2025年提出,旨在评估多模态大语言模型(MLLMs)在真实世界视频数据中的时空理解能力。该数据集聚焦于物体外观、姿态、位移和运动的精确估计与预测,涵盖了桌面、室内和室外等多种场景下的机器人与车辆操作。作为首个系统性评估MLLMs时空智能的基准,STI-Bench填补了该领域在定量化推理方面的研究空白,为具身智能和自动驾驶等实际应用提供了重要的评估工具。相关研究成果已发表在arXiv预印本平台,并受到新华网等主流媒体的关注报道。
当前挑战
STI-Bench揭示了当前MLLMs在时空理解方面面临的核心挑战:在空间量化方面,模型难以精确估计物体距离和位置;在时间动态理解上,对运动轨迹和速度的预测存在显著偏差;跨模态整合能力不足,导致视觉信息与时空推理的协同效率低下。数据构建过程中,研究团队需克服真实场景数据采集的复杂性,包括多视角同步标注、动态物体追踪精度控制,以及量化评估指标的设计等挑战。这些技术难点使得该数据集成为推动MLLMs向精确物理世界理解发展的重要催化剂。
常用场景
经典使用场景
在人工智能领域,多模态大语言模型(MLLMs)的时空理解能力日益受到关注。STI-Bench数据集通过桌面、室内和室外场景下的多样化任务,评估MLLMs在物体外观、姿态、位移和运动估计方面的表现。这一数据集为研究者提供了一个标准化的测试平台,用于验证模型在复杂环境中的时空推理能力,尤其在自动驾驶和具身智能等前沿应用中具有重要价值。
解决学术问题
STI-Bench数据集解决了当前MLLMs在精确时空推理方面的研究空白。通过量化评估模型在距离估计和运动分析等任务中的表现,该数据集揭示了现有模型在空间量化和跨模态整合方面的不足。这不仅为学术界提供了明确的研究方向,也为改进模型在真实世界应用中的可靠性奠定了理论基础。
衍生相关工作
STI-Bench数据集已经催生了一系列关于MLLMs时空理解能力的研究工作。例如,基于该数据集的评估结果,研究者提出了新的跨模态融合方法和时空推理架构。这些工作不仅推动了MLLMs在具身智能和自动驾驶中的应用,还为多模态模型的性能评估设立了新的基准。
以上内容由遇见数据集搜集并总结生成



