SPhyR
收藏arXiv2025-05-22 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/philippds/SPhyR
下载链接
链接失效反馈官方服务:
资源简介:
SPhyR是一个基于拓扑优化的新型数据集,旨在评估大型语言模型(LLM)在物理和空间推理方面的能力。该数据集要求LLMs在没有模拟工具或明确物理模型的情况下,根据给定的边界条件、施加的力和支撑,推理出最优的材料分布。数据集包含各种任务,从在部分结构中填充被遮挡的区域到预测完整的材料分布。这些任务需要理解力的流动和给定约束下的所需材料分布,以挑战模型的结构稳定性和空间组织推理能力。SPhyR针对二维环境中的空间和物理推理能力进行评估,为传统的语言和逻辑基准提供了一个补充的视角。
SPhyR is a novel topology optimization-based dataset designed to evaluate the physical and spatial reasoning capabilities of Large Language Models (LLMs). This dataset requires LLMs to infer the optimal material distribution based on given boundary conditions, applied forces and supports, without relying on simulation tools or explicit physical models. The dataset encompasses a variety of tasks, ranging from filling occluded regions within partial structures to predicting complete material distributions. These tasks demand understanding of force flow and the required material distribution under given constraints, thus challenging the model’s structural stability and spatial organization reasoning abilities. SPhyR evaluates spatial and physical reasoning capabilities in two-dimensional environments, providing a complementary perspective to traditional linguistic and logical benchmarks.
提供机构:
Aleph Alpha Research Germany
创建时间:
2025-05-22
原始信息汇总
数据集概述
基本信息
- 数据集名称:SPhyR
- 数据集地址:https://huggingface.co/datasets/philippds/SPhyR
数据集配置
数据集包含以下配置:
- 1_random_cell_easy
- 1_random_cell_hard
- 5_random_cell_easy
- 5_random_cell_hard
- 10_random_cell_easy
- 10_random_cell_hard
- 1_random_row_easy
- 1_random_row_hard
- 3_random_row_easy
- 3_random_row_hard
- 1_random_column_easy
- 1_random_column_hard
- 3_random_column_easy
- 3_random_column_hard
- full_easy
- full_hard
数据格式
- 所有数据文件均为JSON格式。
- 数据文件路径示例:
datasets/1_random_cell_easy.json
分类说明
- Easy:使用0和1表示材料分布。
- 包含配置:
1_random_cell_easy,5_random_cell_easy,10_random_cell_easy,1_random_row_easy,3_random_row_easy,1_random_column_easy,3_random_column_easy,full_easy
- 包含配置:
- Hard:使用浮点数0-1表示材料分布。
- 包含配置:
1_random_cell_hard,5_random_cell_hard,10_random_cell_hard,1_random_row_hard,3_random_row_hard,1_random_column_hard,3_random_column_hard,full_hard
- 包含配置:
评估与生成
- 评估代码:https://github.com/philippds/SPhyR/blob/main/run_eval.py
- 提示模板:https://github.com/philippds/SPhyR/blob/main/prompt_templates.py
- 重新生成数据集:参考GitHub仓库 https://github.com/philippds/SPhyR
相关论文
- 论文链接:https://arxiv.org/abs/2505.16048
搜集汇总
数据集介绍

构建方式
SPhyR数据集的构建基于拓扑优化方法,通过计算在给定载荷和支撑条件下的最优材料分布,生成了多样化的2D结构样本。数据集包含从部分结构填充到完整材料分布预测的多种任务,每个任务实例由边界条件、施加力和支撑位置定义,并以结构化格式表示。数据生成过程利用了McNeel Rhinoceros 8和Grasshopper可视化编程环境,结合Millipede插件进行密度优化,确保样本在结构类型和支撑力关系上的多样性。
特点
SPhyR数据集专注于评估大型语言模型在空间和物理推理方面的能力,特别是在2D环境下材料分布的推理。其特点包括多样化的任务设置,如随机单元格填充、行和列填充以及完整结构预测,涵盖了从局部到全局的推理范围。数据集提供了易于理解和处理的输入输出格式,支持模型在无仿真工具或显式物理模型的情况下进行推理。此外,数据集还包含不同难度级别的任务,从简单的二元材料分布到复杂的连续值预测,为模型能力提供了全面的评估基准。
使用方法
使用SPhyR数据集时,研究者需根据任务类型提供相应的输入,包括2D边界、施加力和支撑位置。模型需基于这些条件预测或补全材料分布。数据集支持多种评估指标,如精确匹配、得分和标准化得分,以量化模型性能。研究者可通过零样本设置评估模型,或进一步微调以适应特定任务。数据集的结构化输入输出格式便于与现有的大型语言模型集成,同时提供了详细的统计信息和任务变体,支持针对性的分析和评估。
背景与挑战
背景概述
SPhyR(Spatial-Physical Reasoning Benchmark on Material Distribution)是由Aleph Alpha Research的Philipp D. Siedler等人于2025年提出的一个新颖数据集,旨在评估大型语言模型(LLM)在空间物理推理方面的能力。该数据集基于拓扑优化方法,通过计算在设计空间中给定载荷和支撑条件下的最优材料分布,为LLM提供2D边界、施加力和支撑等条件,要求模型推理出最优的材料分布。SPhyR填补了现有基准测试在评估几何和力分布关系方面的空白,为相关领域提供了新的研究视角。
当前挑战
SPhyR数据集面临的挑战主要包括两个方面:1) 领域问题的挑战:该数据集旨在解决空间物理推理问题,特别是材料分布预测,这要求模型理解力的流动和给定约束下的材料分布,而无需访问仿真工具或显式物理模型。这对模型的推理能力提出了较高要求。2) 构建过程的挑战:在构建数据集时,研究人员需要生成多样化的2D样本,包括不同的结构类型和支撑-力关系,以确保任务的泛化性。此外,将拓扑优化问题重新定义为LLM的推理任务也需要精心设计输入输出规范,确保模型能够基于指定的力、支撑和边界条件预测合理的材料分布。
常用场景
经典使用场景
SPhyR数据集专为评估大型语言模型(LLM)在空间物理推理能力方面的表现而设计,特别关注材料分布预测任务。该数据集通过提供二维边界条件、施加力和支撑等输入,要求模型推理出最优的材料分布。经典使用场景包括局部结构填充、完整材料分布预测等任务,这些任务要求模型在缺乏仿真工具或显式物理模型的情况下,理解力的流动和材料分布。
解决学术问题
SPhyR数据集解决了当前LLM在空间和物理推理能力评估方面的不足。传统基准测试多集中于语言和逻辑任务,而SPhyR通过拓扑优化任务,填补了模型在几何、连通性和力流同时推理方面的空白。该数据集不仅挑战模型对结构稳定性和空间组织的理解,还为研究物理约束与空间布局的整合提供了新的视角。
衍生相关工作
SPhyR数据集的推出催生了一系列相关研究工作,特别是在物理推理和空间理解领域。例如,有研究开始探索如何将拓扑优化与机器学习结合,以加速材料分布的计算过程。此外,该数据集还激发了关于LLM在物理系统推理中泛化能力的研究,推动了物理约束与语言模型融合的新方法。
以上内容由遇见数据集搜集并总结生成



