SPhyR

Name: SPhyR
Creator: Aleph Alpha Research Germany
Published: 2025-05-22 06:00:20
License: 暂无描述

arXiv2025-05-22 更新2025-05-24 收录

下载链接：

https://huggingface.co/datasets/philippds/SPhyR

下载链接

链接失效反馈

官方服务：

资源简介：

SPhyR是一个基于拓扑优化的新型数据集，旨在评估大型语言模型（LLM）在物理和空间推理方面的能力。该数据集要求LLMs在没有模拟工具或明确物理模型的情况下，根据给定的边界条件、施加的力和支撑，推理出最优的材料分布。数据集包含各种任务，从在部分结构中填充被遮挡的区域到预测完整的材料分布。这些任务需要理解力的流动和给定约束下的所需材料分布，以挑战模型的结构稳定性和空间组织推理能力。SPhyR针对二维环境中的空间和物理推理能力进行评估，为传统的语言和逻辑基准提供了一个补充的视角。

提供机构：

Aleph Alpha Research Germany

创建时间：

2025-05-22

原始信息汇总

数据集概述

基本信息

数据集名称：SPhyR
数据集地址：https://huggingface.co/datasets/philippds/SPhyR

数据集配置

数据集包含以下配置：

1_random_cell_easy
1_random_cell_hard
5_random_cell_easy
5_random_cell_hard
10_random_cell_easy
10_random_cell_hard
1_random_row_easy
1_random_row_hard
3_random_row_easy
3_random_row_hard
1_random_column_easy
1_random_column_hard
3_random_column_easy
3_random_column_hard
full_easy
full_hard

数据格式

所有数据文件均为JSON格式。
数据文件路径示例：datasets/1_random_cell_easy.json

分类说明

Easy：使用0和1表示材料分布。
- 包含配置：1_random_cell_easy, 5_random_cell_easy, 10_random_cell_easy, 1_random_row_easy, 3_random_row_easy, 1_random_column_easy, 3_random_column_easy, full_easy
Hard：使用浮点数0-1表示材料分布。
- 包含配置：1_random_cell_hard, 5_random_cell_hard, 10_random_cell_hard, 1_random_row_hard, 3_random_row_hard, 1_random_column_hard, 3_random_column_hard, full_hard

评估与生成

评估代码：https://github.com/philippds/SPhyR/blob/main/run_eval.py
提示模板：https://github.com/philippds/SPhyR/blob/main/prompt_templates.py
重新生成数据集：参考GitHub仓库 https://github.com/philippds/SPhyR

相关论文

论文链接：https://arxiv.org/abs/2505.16048

搜集汇总

数据集介绍

构建方式

SPhyR数据集的构建基于拓扑优化方法，通过计算在给定载荷和支撑条件下的最优材料分布，生成了多样化的2D结构样本。数据集包含从部分结构填充到完整材料分布预测的多种任务，每个任务实例由边界条件、施加力和支撑位置定义，并以结构化格式表示。数据生成过程利用了McNeel Rhinoceros 8和Grasshopper可视化编程环境，结合Millipede插件进行密度优化，确保样本在结构类型和支撑力关系上的多样性。

特点

SPhyR数据集专注于评估大型语言模型在空间和物理推理方面的能力，特别是在2D环境下材料分布的推理。其特点包括多样化的任务设置，如随机单元格填充、行和列填充以及完整结构预测，涵盖了从局部到全局的推理范围。数据集提供了易于理解和处理的输入输出格式，支持模型在无仿真工具或显式物理模型的情况下进行推理。此外，数据集还包含不同难度级别的任务，从简单的二元材料分布到复杂的连续值预测，为模型能力提供了全面的评估基准。

使用方法

使用SPhyR数据集时，研究者需根据任务类型提供相应的输入，包括2D边界、施加力和支撑位置。模型需基于这些条件预测或补全材料分布。数据集支持多种评估指标，如精确匹配、得分和标准化得分，以量化模型性能。研究者可通过零样本设置评估模型，或进一步微调以适应特定任务。数据集的结构化输入输出格式便于与现有的大型语言模型集成，同时提供了详细的统计信息和任务变体，支持针对性的分析和评估。

背景与挑战

背景概述

SPhyR（Spatial-Physical Reasoning Benchmark on Material Distribution）是由Aleph Alpha Research的Philipp D. Siedler等人于2025年提出的一个新颖数据集，旨在评估大型语言模型（LLM）在空间物理推理方面的能力。该数据集基于拓扑优化方法，通过计算在设计空间中给定载荷和支撑条件下的最优材料分布，为LLM提供2D边界、施加力和支撑等条件，要求模型推理出最优的材料分布。SPhyR填补了现有基准测试在评估几何和力分布关系方面的空白，为相关领域提供了新的研究视角。

当前挑战

SPhyR数据集面临的挑战主要包括两个方面：1) 领域问题的挑战：该数据集旨在解决空间物理推理问题，特别是材料分布预测，这要求模型理解力的流动和给定约束下的材料分布，而无需访问仿真工具或显式物理模型。这对模型的推理能力提出了较高要求。2) 构建过程的挑战：在构建数据集时，研究人员需要生成多样化的2D样本，包括不同的结构类型和支撑-力关系，以确保任务的泛化性。此外，将拓扑优化问题重新定义为LLM的推理任务也需要精心设计输入输出规范，确保模型能够基于指定的力、支撑和边界条件预测合理的材料分布。

常用场景

经典使用场景

SPhyR数据集专为评估大型语言模型（LLM）在空间物理推理能力方面的表现而设计，特别关注材料分布预测任务。该数据集通过提供二维边界条件、施加力和支撑等输入，要求模型推理出最优的材料分布。经典使用场景包括局部结构填充、完整材料分布预测等任务，这些任务要求模型在缺乏仿真工具或显式物理模型的情况下，理解力的流动和材料分布。

解决学术问题

SPhyR数据集解决了当前LLM在空间和物理推理能力评估方面的不足。传统基准测试多集中于语言和逻辑任务，而SPhyR通过拓扑优化任务，填补了模型在几何、连通性和力流同时推理方面的空白。该数据集不仅挑战模型对结构稳定性和空间组织的理解，还为研究物理约束与空间布局的整合提供了新的视角。

衍生相关工作

SPhyR数据集的推出催生了一系列相关研究工作，特别是在物理推理和空间理解领域。例如，有研究开始探索如何将拓扑优化与机器学习结合，以加速材料分布的计算过程。此外，该数据集还激发了关于LLM在物理系统推理中泛化能力的研究，推动了物理约束与语言模型融合的新方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集