FysicsEval

github2026-02-10 更新2026-02-15 收录

下载链接：

https://github.com/Fysics-AI/FysicsEval

下载链接

链接失效反馈

官方服务：

资源简介：

FysicsEval是一个统一的基准测试，用于测量多模态模型在物理感知、定量预测、可解释推理和跨模态物理理解方面的能力。它包含3,854个样本和3,781张真实世界图像，涵盖刚体、软体和流体，以及11类属性空间。

FysicsEval is a unified benchmark designed to evaluate the capabilities of multimodal models in physical perception, quantitative prediction, interpretable reasoning, and cross-modal physical understanding. It consists of 3,854 samples and 3,781 real-world images, covering rigid bodies, soft bodies, fluids, and 11 categories of attribute spaces.

创建时间：

2026-02-03

原始信息汇总

FysicsEval 数据集概述

数据集简介

FysicsEval 是一个统一的基准测试，用于评估模型在物理感知、预测、推理和理解方面的能力。它旨在满足旨在与物理现实交互的下一代通用物理人工智能的需求，强调基于物理定律的定量预测和推理。

数据集构成

样本数量：3,854 个样本。
图像数量：3,781 张真实世界图像。
涵盖物理领域：刚体、软体和流体。
属性空间：包含 11 个类别的物理属性，包括刚度、密度、质量、静/动摩擦系数、恢复系数、杨氏模量、泊松比、粘度、表面张力和屈服应力。

任务分类

数据集提供三个互补的任务来探究物理智能：

物理属性的感知与预测：定量的数值预测。
可解释的物理推理：开放式问答。
跨模态物理一致性理解：针对物理不一致陈述的多项选择题理解。

查询形式多样化（数值预测、开放式、多项选择题），并分为三个难度级别，以防止记忆并鼓励稳健的泛化。

评估协议

物理属性预测：使用平均相对准确率进行评分。
一致性理解：使用多项选择题的标准准确率。
开放式推理：通过基于 LLM 的评分标准在六个维度上进行评判（语义一致性、参数精度、因果有效性、机制识别、链条完整性、定量-定性对齐）。GPT-5 被用作标准化的自动评判器，采用固定的提示和评分协议。
所有评估脚本和评分协议均在 metrics 目录中提供。

使用方式

从 https://huggingface.co/datasets/Fysics-AI/FysicsEval 下载数据集。问答文件位于 data 目录。
运行您的模型，并按照 metrics 中的脚本评估输出。

引用

如果使用 FysicsEval，请引用： bibtex @article{han2026exploringphysical, title={Exploring Physical Intelligence Emergence via Omni-Modal Architecture and Physical Data Engine}, author={Han, Minghao and Yang, Dingkang and Jiang, Yue and Liu, Yizhou and Zhang, Lihua}, journal={arXiv preprint arXiv:2602.07064}, year={2026} }

搜集汇总

数据集介绍

构建方式

在物理人工智能领域，现有基准多聚焦于理论问题求解或定性场景分析，难以满足通用物理AI与真实世界交互的需求。FysicsEval数据集通过整合现实世界多模态证据，构建了涵盖刚体、软体和流体三大类别的样本库，包含3,854个样本与3,781张真实图像。数据采集过程覆盖了刚度、密度、质量、摩擦系数、恢复系数、杨氏模量、泊松比、粘度、表面张力及屈服应力等11类物理属性，并依据物理定律进行定量标注。任务设计采用分层策略，将问题划分为三个难度等级，通过数值预测、开放式问答与多项选择题等多样化查询形式，有效避免了模型记忆倾向，促进了鲁棒泛化能力的评估。

特点

FysicsEval数据集的核心特点在于其统一且多层次的能力评估框架。该基准强调基于物理定律的定量预测与可解释推理，突破了传统数据集中在定性直觉或孤立领域的局限。数据集通过感知与预测、可解释物理推理以及跨模态物理一致性理解三大互补任务，系统性地探测模型在物理属性量化、因果机制阐释和跨模态一致性判别等方面的能力。评估协议采用均值相对精度、标准化准确率及基于大语言模型的六维评分准则，结合自动化评判流程，确保了评测结果的严谨性与可比性。其任务设计的多样性与难度分层进一步增强了基准的鉴别力与挑战性。

使用方法

为有效利用FysicsEval数据集，研究者可从Hugging Face平台直接下载完整数据资源，其中问答文件存放于指定目录。使用过程中，需依据数据集中提供的评估脚本与评分协议，对模型输出进行系统化评测。对于物理属性预测任务，采用均值相对精度进行量化衡量；跨模态理解部分则通过多项选择题的准确率进行评估；开放式推理任务依赖基于大语言模型的标准化评判流程，从语义一致性、参数精度、因果有效性等六个维度进行综合打分。通过整合这些评估模块，研究者能够全面衡量模型在物理感知、预测、推理与理解方面的综合性能，推动通用物理智能体的发展。

背景与挑战

背景概述

在人工智能与物理世界交互的研究浪潮中，现有基准多聚焦于理论求解或定性分析，难以满足通用物理智能体对定量预测与可解释推理的需求。为此，复旦大学研究团队于2026年推出了FysicsEval基准，该数据集旨在系统评估多模态模型在物理感知、定量预测、因果推理及跨模态理解方面的综合能力。通过涵盖刚体、软体与流体等多样物理实体，并引入包括刚度、密度、质量等十一类物理属性的精细标注，FysicsEval为推进物理智能的涌现提供了严谨且多维的评估框架，对机器人学、仿真计算及具身智能等领域具有重要的理论价值与应用潜力。

当前挑战

FysicsEval所应对的核心领域挑战在于突破传统物理基准的局限，即从定性直觉转向基于物理定律的定量预测与可解释推理，这要求模型不仅需理解复杂物理场景的多模态证据，还需实现参数化属性的精确推断。在构建过程中，挑战主要体现在数据采集与标注的复杂性上：真实世界物理现象的多样性与动态性使得高质量图像与对应物理属性的精确匹配尤为困难；同时，为确保评估的鲁棒性，需设计分层难度任务并避免模型记忆，这要求样本在查询形式与内容上具备充分的多样性与平衡性。

常用场景

经典使用场景

在物理人工智能领域，FysicsEval数据集作为一项统一基准，广泛应用于评估多模态模型在物理感知、预测、推理和理解方面的综合能力。其经典使用场景集中于对刚性体、软体及流体等真实世界物理现象的定量分析，通过涵盖刚度、密度、质量等11类物理属性的多样化查询，系统性地检验模型从多模态证据中提取物理规律并进行数值预测的精度。该数据集通过分层难度设计，有效避免了模型对数据的简单记忆，促进了在复杂物理环境下的稳健泛化能力。

实际应用

在实际应用层面，FysicsEval数据集为机器人学、自动驾驶及增强现实等需要深度物理理解的领域提供了关键评估框架。通过要求模型对真实世界图像中的物理属性进行定量预测，并完成跨模态一致性判断，该数据集能够帮助开发出更可靠、安全的智能系统，例如在机器人抓取中准确估计物体刚度，或在自动驾驶场景中预测流体动力学行为。其强调的可解释推理机制进一步增强了智能系统在复杂物理环境中的决策透明度与可信度。

衍生相关工作

围绕FysicsEval数据集，已衍生出一系列经典研究工作，例如基于该基准提出的OmniFysics架构，通过全模态设计与物理数据引擎探索物理智能的涌现机制。同时，该数据集推动了多模态模型在物理推理领域的性能比较，如GPT-5、Gemini-2.5等先进模型均在FysicsEval上进行了系统评估，促进了模型在物理属性预测、因果机制识别等任务上的算法创新。这些工作共同深化了对物理智能本质的理解，并为后续研究提供了可复现的评估范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集