SPhyR
收藏arXiv2025-05-22 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/philippds/SPhyR
下载链接
链接失效反馈官方服务:
资源简介:
SPhyR是一个基于拓扑优化的新型数据集,旨在评估大型语言模型(LLM)在物理和空间推理方面的能力。该数据集要求LLMs在没有模拟工具或明确物理模型的情况下,根据给定的边界条件、施加的力和支撑,推理出最优的材料分布。数据集包含各种任务,从在部分结构中填充被遮挡的区域到预测完整的材料分布。这些任务需要理解力的流动和给定约束下的所需材料分布,以挑战模型的结构稳定性和空间组织推理能力。SPhyR针对二维环境中的空间和物理推理能力进行评估,为传统的语言和逻辑基准提供了一个补充的视角。
提供机构:
Aleph Alpha Research Germany
创建时间:
2025-05-22
原始信息汇总
数据集概述
基本信息
- 数据集名称:SPhyR
- 数据集地址:https://huggingface.co/datasets/philippds/SPhyR
数据集配置
数据集包含以下配置:
- 1_random_cell_easy
- 1_random_cell_hard
- 5_random_cell_easy
- 5_random_cell_hard
- 10_random_cell_easy
- 10_random_cell_hard
- 1_random_row_easy
- 1_random_row_hard
- 3_random_row_easy
- 3_random_row_hard
- 1_random_column_easy
- 1_random_column_hard
- 3_random_column_easy
- 3_random_column_hard
- full_easy
- full_hard
数据格式
- 所有数据文件均为JSON格式。
- 数据文件路径示例:
datasets/1_random_cell_easy.json
分类说明
- Easy:使用0和1表示材料分布。
- 包含配置:
1_random_cell_easy,5_random_cell_easy,10_random_cell_easy,1_random_row_easy,3_random_row_easy,1_random_column_easy,3_random_column_easy,full_easy
- 包含配置:
- Hard:使用浮点数0-1表示材料分布。
- 包含配置:
1_random_cell_hard,5_random_cell_hard,10_random_cell_hard,1_random_row_hard,3_random_row_hard,1_random_column_hard,3_random_column_hard,full_hard
- 包含配置:
评估与生成
- 评估代码:https://github.com/philippds/SPhyR/blob/main/run_eval.py
- 提示模板:https://github.com/philippds/SPhyR/blob/main/prompt_templates.py
- 重新生成数据集:参考GitHub仓库 https://github.com/philippds/SPhyR
相关论文
- 论文链接:https://arxiv.org/abs/2505.16048
搜集汇总
数据集介绍

构建方式
SPhyR数据集的构建基于拓扑优化方法,通过计算在给定载荷和支撑条件下的最优材料分布,生成了多样化的2D结构样本。数据集包含从部分结构填充到完整材料分布预测的多种任务,每个任务实例由边界条件、施加力和支撑位置定义,并以结构化格式表示。数据生成过程利用了McNeel Rhinoceros 8和Grasshopper可视化编程环境,结合Millipede插件进行密度优化,确保样本在结构类型和支撑力关系上的多样性。
特点
SPhyR数据集专注于评估大型语言模型在空间和物理推理方面的能力,特别是在2D环境下材料分布的推理。其特点包括多样化的任务设置,如随机单元格填充、行和列填充以及完整结构预测,涵盖了从局部到全局的推理范围。数据集提供了易于理解和处理的输入输出格式,支持模型在无仿真工具或显式物理模型的情况下进行推理。此外,数据集还包含不同难度级别的任务,从简单的二元材料分布到复杂的连续值预测,为模型能力提供了全面的评估基准。
使用方法
使用SPhyR数据集时,研究者需根据任务类型提供相应的输入,包括2D边界、施加力和支撑位置。模型需基于这些条件预测或补全材料分布。数据集支持多种评估指标,如精确匹配、得分和标准化得分,以量化模型性能。研究者可通过零样本设置评估模型,或进一步微调以适应特定任务。数据集的结构化输入输出格式便于与现有的大型语言模型集成,同时提供了详细的统计信息和任务变体,支持针对性的分析和评估。
背景与挑战
背景概述
SPhyR(Spatial-Physical Reasoning Benchmark on Material Distribution)是由Aleph Alpha Research的Philipp D. Siedler等人于2025年提出的一个新颖数据集,旨在评估大型语言模型(LLM)在空间物理推理方面的能力。该数据集基于拓扑优化方法,通过计算在设计空间中给定载荷和支撑条件下的最优材料分布,为LLM提供2D边界、施加力和支撑等条件,要求模型推理出最优的材料分布。SPhyR填补了现有基准测试在评估几何和力分布关系方面的空白,为相关领域提供了新的研究视角。
当前挑战
SPhyR数据集面临的挑战主要包括两个方面:1) 领域问题的挑战:该数据集旨在解决空间物理推理问题,特别是材料分布预测,这要求模型理解力的流动和给定约束下的材料分布,而无需访问仿真工具或显式物理模型。这对模型的推理能力提出了较高要求。2) 构建过程的挑战:在构建数据集时,研究人员需要生成多样化的2D样本,包括不同的结构类型和支撑-力关系,以确保任务的泛化性。此外,将拓扑优化问题重新定义为LLM的推理任务也需要精心设计输入输出规范,确保模型能够基于指定的力、支撑和边界条件预测合理的材料分布。
常用场景
经典使用场景
SPhyR数据集专为评估大型语言模型(LLM)在空间物理推理能力方面的表现而设计,特别关注材料分布预测任务。该数据集通过提供二维边界条件、施加力和支撑等输入,要求模型推理出最优的材料分布。经典使用场景包括局部结构填充、完整材料分布预测等任务,这些任务要求模型在缺乏仿真工具或显式物理模型的情况下,理解力的流动和材料分布。
解决学术问题
SPhyR数据集解决了当前LLM在空间和物理推理能力评估方面的不足。传统基准测试多集中于语言和逻辑任务,而SPhyR通过拓扑优化任务,填补了模型在几何、连通性和力流同时推理方面的空白。该数据集不仅挑战模型对结构稳定性和空间组织的理解,还为研究物理约束与空间布局的整合提供了新的视角。
衍生相关工作
SPhyR数据集的推出催生了一系列相关研究工作,特别是在物理推理和空间理解领域。例如,有研究开始探索如何将拓扑优化与机器学习结合,以加速材料分布的计算过程。此外,该数据集还激发了关于LLM在物理系统推理中泛化能力的研究,推动了物理约束与语言模型融合的新方法。
以上内容由遇见数据集搜集并总结生成



