five

QuantiPhy

收藏
arXiv2025-12-23 更新2025-12-24 收录
下载链接:
https://huggingface.co/datasets/PaulineLi/QuantiPhy-validation
下载链接
链接失效反馈
官方服务:
资源简介:
QuantiPhy是由斯坦福大学团队构建的首个定量物理推理基准数据集,包含569个独特视频和3355个标注问题,涵盖2D/3D运动场景。该数据集通过Blender模拟、实验室采集和网络爬取三种方式构建,每个视频关联多组(先验、问题、真值)三元组,要求模型根据给定先验(如物体尺寸、速度或加速度)推算目标物体的运动学属性。其核心价值在于突破传统定性评估,为视觉语言模型在自动驾驶、增强现实等需要精确物理量理解的领域提供标准化测试平台。

QuantiPhy is the first quantitative physical reasoning benchmark dataset developed by a research team at Stanford University. It consists of 569 unique videos and 3,355 annotated questions spanning 2D and 3D motion scenarios. This dataset is constructed via three approaches: Blender simulation, laboratory data collection, and web crawling. Each video is associated with multiple sets of (prior, question, ground truth) triplets, requiring models to infer the kinematic properties of target objects based on given priors such as object dimensions, velocity, or acceleration. Its core value lies in breaking through traditional qualitative evaluation, providing a standardized test platform for vision-language models in fields requiring precise physical quantity understanding, such as autonomous driving and augmented reality.
提供机构:
斯坦福大学, 香港科技大学
创建时间:
2025-12-23
原始信息汇总

QuantiPhy (Validation Set) 数据集概述

数据集简介

QuantiPhy 是一个用于评估视觉-语言模型是否能从视觉证据进行定量物理推理的基准,而非产生看似合理但无根据的数值猜测。本仓库包含 QuantiPhy 的官方验证集,用于支持模型开发、消融研究和初步评估。该验证集约占完整基准的4%,包含 159 个视频-问题-答案对。每个实例要求模型在给定一个短视频和一个自然语言问题后,输出一个单一的连续数值(例如,物体大小、速度或加速度),单位为真实世界单位。

预期用途

此验证集旨在用于:

  • 模型调试和提示词开发
  • 超参数调优
  • 消融和错误分析
  • 在完整基准评估前的完整性检查 它不应用作完整 QuantiPhy 基准的替代品。完整数据集(包括训练和测试分割)将另行发布。

支持的任务

  • 基于视频的数值回归
  • 定量视觉推理
  • 视觉-语言模型评估 任务涵盖三个核心运动学属性:
  • 大小
  • 速度
  • 加速度 所有问题均为开放式,需要预测一个实值标量。

数据集结构

每个实例表示为一个结构化的视频-文本记录,包含以下字段:

字段 描述
video_id 视频的唯一标识符
video_source 数据来源 (simulation, lab, 或 internet)
video_type 编码任务配置的四字符代码
fps 视频的帧率
inference_type 静态或动态的先验/目标配置
question 带有明确物理单位的自然语言问题
prior 以世界单位提供的物理先验(例如,物体大小、速度或加速度)
depth_info 3D 配置的深度/距离信息(如适用)
answer 真实数值(浮点数,真实世界单位)

视频较短(通常 2–3 秒),并使用静态摄像机录制,以确保运动学推理定义明确。

任务设计概述

每个实例为模型提供:

  • 一个描绘物体运动的短视频
  • 一个物理先验(以世界单位表示,如物体大小、特定时间戳的速度或加速度) 模型随后被要求推断一个目标运动学量(可能针对不同物体),并以真实世界单位表示。

任务在四个维度上变化:

  1. 物理先验:大小 (S)、速度 (V)、加速度 (A)
  2. 维度:2D(平面运动)或 3D(具有深度变化)
  3. 物体设置:单物体 (S) 或多物体 (M)
  4. 背景复杂度:简单 (X)、简单 (S)、复杂 (C)

验证集统计信息

  • 159 个 QA 对
  • 涵盖所有三种物理先验 (S / V / A)
  • 包括 2D 和 3D 配置
  • 视频来源:
    • Blender 模拟
    • 实验室捕获
    • 精选的互联网视频 此子集旨在相对于完整基准具有代表性但非穷尽性

数据来源与质量控制

  • 模拟:使用精确物理真实值的 Blender 渲染场景。
  • 实验室捕获:使用校准深度和多视角设置的真实世界录制。
  • 互联网/作者录制视频:经过精心筛选、满足严格物理约束的单目视频。 所有视频都经过人工审查,以移除:
  • 过度运动模糊
  • 严重遮挡
  • 无法追踪的运动
  • 个人身份信息

许可协议

本仓库中的标注和元数据根据 Creative Commons Attribution 4.0 (CC BY 4.0) 许可发布。 视频来源于模拟环境、实验室录制和公开可用的资源。每个视频仍受其原始许可和使用条款约束。 此发布旨在用于研究和评估目的

作者

Puyin Li*, Tiange Xiang*, Ella Mao*, Shirley Wei, Xinye Chen, Adnan Masood, Li Fei-Fei†, Ehsan Adeli†

  • 同等贡献。

引用

如果您在您的工作中使用此验证集,请引用: bibtex @article{li2025quantiphy, title = {QuantiPhy: A Quantitative Benchmark Evaluating Physical Reasoning Abilities of Vision-Language Models}, author = {Li, Puyin and Xiang, Tiange and Mao, Ella and Wei, Shirley and Chen, Xinye and Masood, Adnan and Li, Fei-Fei and Adeli, Ehsan}, journal = {arXiv preprint arXiv:2512.19526}, year = {2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在物理推理评估领域,QuantiPhy数据集通过多源视频采集与精密标注构建而成。其构建过程融合了Blender仿真、实验室捕捉与互联网爬取三种数据来源,确保了场景的多样性与物理真实性。Blender仿真提供了完全可控的环境与精确的物理真值;实验室捕捉利用多视角立体系统重建真实物体的三维运动轨迹;互联网爬取则引入了野外场景的复杂性。每个视频均经过严格的筛选与后处理,确保相机静止且目标物体进行平移运动,进而通过像素空间到世界空间的尺度转换,生成包含数值真值的视频-文本实例。
特点
QuantiPhy数据集的核心特点在于其首次以定量方式评估视觉语言模型在运动物体物理推理上的能力。该数据集涵盖超过3.3K个视频-文本实例,每个实例均配有数值真值,专注于物体尺寸、速度与加速度的估计任务。其设计通过静态与动态先验、二维与三维运动的组合,系统化地考察模型在不同物理条件下的推理表现。数据集的多样性体现在场景尺度从微观到天文级别,运动模式涵盖匀速、加速及复杂轨迹,且背景复杂度从纯色到真实复杂环境均有覆盖,为模型提供了全面而严谨的测试平台。
使用方法
QuantiPhy数据集的使用旨在通过标准化提示与评分协议,公平比较不同视觉语言模型的定量物理推理性能。用户需将视频与单一物理先验(如物体尺寸、速度或加速度)作为输入,要求模型在给定时间戳推断目标物体的运动学属性。评估采用平均相对准确度作为核心指标,衡量模型预测值与真值之间的数值接近程度。数据集的四个核心任务类别——二维静态、二维动态、三维静态与三维动态——允许研究者深入分析模型在不同维度和先验类型下的表现差异,并为改进模型的物理忠实性提供诊断依据。
背景与挑战
背景概述
QuantiPhy数据集由斯坦福大学的研究团队于2025年提出,旨在系统评估视觉语言模型在物理推理中的定量能力。该数据集的核心研究问题聚焦于探索先进的多模态模型能否从视频观测中准确推断运动物体的运动学量值,如尺寸、速度和加速度。传统评估多基于视觉问答范式且偏向定性分析,难以衡量模型对物理属性的数值化理解。QuantiPhy通过构建包含超过3300个视频-文本实例的大规模基准,首次将物理推理的评估从言语合理性转向数值准确性,为具身智能、自动驾驶等关键领域的模型发展提供了重要的评测基础。
当前挑战
QuantiPhy面临的挑战主要体现在两大维度。在领域问题层面,该数据集旨在解决视觉语言模型对运动物体进行定量运动学推理的难题,即要求模型依据单一物理先验,在视频中精确估算目标物体的尺寸、速度或加速度。这一任务挑战了模型整合视觉时序信息与数值先验的能力,并需克服模型过度依赖预训练世界知识而非实际输入的问题。在构建过程中,挑战包括从多样化来源收集高质量视频数据并确保精确的数值标注,例如在真实世界视频中缺乏深度信息时需手动建立像素到真实世界的尺度映射,以及在复杂场景中保持标注的一致性与物理合理性。
常用场景
经典使用场景
在视觉语言模型(VLMs)的物理推理能力评估领域,QuantiPhy数据集作为首个定量化基准测试,其经典使用场景聚焦于系统性地衡量模型从视频观测中推断运动物体运动学属性的数值准确性。通过提供包含超过3.3K个视频-文本实例的标准化测试集,该数据集要求模型在给定单一物理先验(如物体尺寸、速度或加速度)的条件下,精确计算目标物体在特定时间点的尺寸、速度或加速度。这一场景不仅涵盖了二维与三维运动、静态与动态先验的多样化组合,还通过统一的提示词设计和评分机制,为不同模型间的公平比较提供了严谨的实验框架,从而深刻揭示了当前先进VLMs在定量物理推理方面存在的显著局限性。
解决学术问题
QuantiPhy数据集有效解决了视觉语言模型领域长期存在的定性评估局限问题。传统基于视觉问答(VQA)的基准测试仅能提供二元判断,无法精细量化模型在物理属性推断上的数值误差,例如将3.1米与31米的错误预测等同对待。该数据集通过引入连续数值输出与相对准确度(MRA)度量,首次实现了对VLMs物理推理能力的定量化评估,从而能够精确捕捉模型预测与真实值之间的数值差距。其意义在于推动了物理推理研究从语义合理性向数值精确性的范式转变,为模型在具身智能、自动驾驶等需要精确物理理解的实际应用中奠定了可靠的评估基础,并揭示了当前模型过度依赖预训练知识而非视觉输入的关键缺陷。
衍生相关工作
QuantiPhy数据集的推出催生了一系列关注视觉语言模型定量物理推理的衍生研究工作。例如,基于其揭示的模型过度依赖先验知识而非视觉证据的现象,后续研究开始探索如何通过物理信息训练目标或专用预训练数据来提升模型的输入忠实性。同时,该数据集启发了对更复杂物理场景(如旋转动力学、可变形物体交互)的基准构建,推动了如PhysBench++、STAR等评估范围的扩展。在模型架构方面,许多工作借鉴QuantiPhy的评估协议,开发了能够更好整合像素级信息与数值先验的新型VLMs,旨在弥合模型当前性能与人类物理直觉之间的差距,从而逐步实现真正意义上的物理基础智能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作