PFP_datasets

Hugging Face2026-01-18 更新2026-01-19 收录

下载链接：

https://huggingface.co/datasets/hznuer/PFP_datasets

下载链接

链接失效反馈

官方服务：

资源简介：

Paper Folding Puzzles（PFP）是一个全面的基准测试，旨在评估和增强多模态大语言模型在空间推理方面的能力。该数据集系统地涵盖了五种不同的任务类型，从基础的单步变换到复杂的3D空间可视化，为评估AI系统的空间智能提供了一个严格的框架。数据集包含153,000个精心挑选的样本，其中150,000个用于训练，3,000个用于测试。3D折叠和2D展开类别中还包括简单和困难的子级别，以便更精细地评估模型能力。数据集采用parquet格式，每个实例包含图像路径和正确答案选项。

Paper Folding Puzzles (PFP) is a comprehensive benchmark designed to evaluate and enhance the spatial reasoning capabilities of multimodal large language models. This dataset systematically covers five distinct task types, ranging from basic single-step transformations to complex 3D spatial visualization, providing a rigorous framework for assessing the spatial intelligence of AI systems. The dataset contains 153,000 carefully selected samples, of which 150,000 are allocated for training and 3,000 for testing. Categories of 3D folding and 2D unfolding also include simple and difficult sub-levels to enable more fine-grained evaluation of model capabilities. The dataset is stored in parquet format, with each instance containing an image path and the correct answer options.

创建时间：

2026-01-17

原始信息汇总

Paper Folding Puzzles (PFP) 数据集概述

数据集基本信息

数据集名称：Paper Folding Puzzles (PFPdatasets)
任务类别：问答
主要语言：英语
标签：代码
许可证：Apache-2.0
数据规模：100K < n < 1M

数据集简介

Paper Folding Puzzles (PFP) 是一个用于评估多模态大语言模型空间推理能力的综合性基准。该基准旨在解决模型在理解几何变换和空间关系方面的局限性，特别是在纸张折叠场景中。它系统性地涵盖了五种不同的任务类型，从基本的单步变换到复杂的三维空间可视化，为评估人工智能系统的空间智能提供了一个严格的框架。

数据集亮点

多维度的空间推理基准：系统性地涵盖五种关键任务类型——单步折叠、逆向折叠、多步折叠、三维折叠和二维展开，以解决空间智能的不同方面。
规模全面：包含153,000个精心策划的样本，其中150,000个训练样本和3,000个测试样本，确保在所有任务类别上进行稳健的评估。
结构化难度等级：在三维折叠和二维展开类别中包含简单和困难的子级别，支持对模型能力进行细粒度评估。
标准化格式：数据集使用Parquet格式和一致的JSON结构，便于与现有的多模态大语言模型框架无缝集成。

数据集结构

数据集目录结构如下：

PFP_dataset/ ├── train/ │ ├── Single-Step.parquet │ ├── Inverse.parquet │ ├── Multi-Step.parquet │ ├── 3D-Folding/ │ │ ├── _2DTo3D_N.parquet │ │ └── _2DTo3D_Y.parquet │ └── 2D-Unfolding/ │ ├── _3DTo2D_N.parquet │ └── _3DTo2D_Y.parquet └── test/ ├── Single-Step.parquet ├── Inverse.parquet ├── Multi-Step.parquet ├── 3D-Folding.parquet └── 2D-Unfolding.parquet

数据实例与字段

每个数据实例包含以下字段： json { "image": "circle_001.png", "answer": "D" }

image：一个字符串，包含纸张折叠谜题图像的相对路径（例如："circle_001.png"）。
answer：一个字符串，表示正确答案选项（A、B、C或D）。

快速开始

加载数据集

python from datasets import load_dataset

加载整个数据集

dataset = load_dataset("hznuer/PFP_datasets")

或加载特定拆分

train_dataset = load_dataset("hznuer/PFP_datasets", split="train") test_dataset = load_dataset("hznuer/PFP_datasets", split="test")

加载特定任务类型

single_step_data = load_dataset("hznuer/PFP_datasets", "Single-Step")

基本使用示例

python

处理数据集的示例

dataset = load_dataset("hznuer/PFP_datasets", split="train")

for sample in dataset: image_path = sample["image"] correct_answer = sample["answer"] # 在此处理您的纸张折叠谜题

引用

如果觉得Paper Folding Puzzles有帮助，请考虑引用以下论文： latex @inproceedings{zhou2026paperfolding, title={Paper Folding Puzzles: A Benchmark for Evaluating Spatial Reasoning in Multimodal Large Language Models}, author={Zhou, Dibin and Xu, Yantao and Huang, Zongming and Yan, Zengwei and Liu, Wenhao and Miao, Yongwei and Ren, Jianfeng and Liu, Fuchang}, booktitle={Proceedings of the AAAI Conference on Artificial Intelligence}, year={2026} }

作者

Dibin Zhou, Yantao Xu, Zongming Huang, Zengwei Yan, Wenhao Liu, Yongwei Miao, Jianfeng Ren, Fuchang Liu

所属机构：杭州师范大学信息科学与技术学院 & 宁波诺丁汉大学计算机科学学院数字港口技术实验室

联系方式

有关此数据集的问题或疑问：

在GitHub仓库提交问题：https://github.com/hznuer/PFP_bench
通过论文通讯作者联系作者

搜集汇总

数据集介绍

构建方式

在空间推理研究领域，构建高质量的评估基准对于推动多模态大语言模型的发展至关重要。Paper Folding Puzzles（PFP）数据集通过系统化设计，涵盖了从单步变换到复杂三维空间可视化在内的五种核心任务类型，包括单步折叠、逆向推理、多步折叠、三维折叠以及二维展开。数据生成过程经过精心策划，总计产生了153,000个样本，其中训练集包含150,000个样本，测试集包含3,000个样本，确保了评估的全面性与鲁棒性。数据以规范的parquet格式存储，每个样本均包含图像路径与对应答案选项，结构清晰一致，便于后续处理与分析。

使用方法

研究人员可通过Hugging Face平台便捷加载PFP数据集，利用datasets库中的load_dataset函数即可访问完整数据集或特定分割。用户可以根据需要加载训练集或测试集，亦能针对不同任务类型进行选择性加载，例如单独调用单步折叠数据。数据加载后，每个样本提供图像路径与正确答案，用户可结合自身模型进行图像处理与推理验证。这种灵活的使用方式有助于快速集成到现有实验流程中，推动空间推理能力的评估与提升。

背景与挑战

背景概述

在人工智能领域，空间推理能力是衡量智能系统认知水平的关键维度，尤其对于处理几何变换与空间关系的任务至关重要。近期，多模态大语言模型在多项推理任务中展现出卓越进展，然而在折纸谜题这类涉及复杂空间转换的场景中，模型的理解能力仍面临显著局限。为填补这一空白，杭州师范大学与宁波诺丁汉大学数字港口技术实验室的研究团队于2026年共同创建了Paper Folding Puzzles数据集。该数据集旨在系统评估并增强多模态大语言模型的空间推理性能，其核心研究问题聚焦于如何精准量化模型对二维至三维几何变换的解析能力，从而推动空间智能评估体系的标准化发展，对计算机视觉与认知计算领域的进步产生深远影响。

当前挑战

Paper Folding Puzzles数据集致力于解决多模态大语言模型在空间推理任务中面临的挑战，具体涉及模型对几何变换的抽象理解、多步骤空间关系的逻辑推演，以及二维与三维形态之间的动态映射能力。在构建过程中，研究团队需克服数据生成的复杂性，确保十五万三千个样本在五种任务类型中保持几何变换的精确性与逻辑一致性。同时，设计涵盖单步变换、逆向推理、多步折叠、三维折叠与二维展开的层次化难度结构，要求严格的视觉标注与答案验证流程，以避免语义歧义并维持评估框架的严谨性。

常用场景

经典使用场景

在空间推理研究领域，Paper Folding Puzzles (PFP) 数据集为评估多模态大语言模型在几何变换与空间关系理解方面的能力提供了标准化基准。该数据集通过涵盖单步变换、逆向推理、多步折叠、三维折叠与二维展开等五种任务类型，系统性地模拟了从基础到复杂的空间认知过程，成为研究人员衡量模型空间智能水平的经典工具。其精心设计的难度梯度与结构化样本，使得模型在应对纸张折叠类谜题时，能够接受全面而细致的性能检验，从而推动空间推理技术的迭代与发展。

解决学术问题

PFP 数据集主要致力于解决多模态人工智能系统中空间推理能力评估的缺失问题。传统模型在理解几何形状的连续变换、预测折叠后形态以及进行三维空间可视化等方面常显不足，该数据集通过提供大规模、多任务、分层级的样本，为量化模型的空间认知缺陷提供了实证基础。它不仅帮助识别模型在空间转换与关系推断中的瓶颈，还为设计针对性的算法改进方案指明了方向，对提升人工智能的通用空间智能具有重要的理论意义与实践价值。

实际应用

在实际应用层面，PFP 数据集所针对的空间推理能力在教育科技、辅助设计、机器人操作等领域展现出广泛潜力。例如，在智能教育系统中，基于该数据集训练的模型能够辅助学生理解几何折叠过程，提升空间想象能力；在计算机辅助设计领域，模型可协助预测材料折叠后的三维结构，优化设计方案；而对于自主机器人，增强的空间推理能力有助于其在复杂环境中进行物体操作与路径规划。这些应用体现了将抽象空间认知转化为现实生产力的重要途径。

数据集最近研究