SRM Benchmarks

github2025-11-12 更新2025-11-13 收录

下载链接：

https://github.com/spatialreasoners/srmbench

下载链接

链接失效反馈

官方服务：

资源简介：

SRM基准测试提供三个主要数据集，用于评估生成模型中的空间推理能力：MNIST Sudoku数据集要求用MNIST数字填充缺失单元格，确保行、列和3×3子网格中无重复数字；Even Pixels数据集要求生成图像中两种颜色各占50%像素；Counting Objects数据集测试对象计数能力。所有数据集支持自动下载和评估，总大小小于3GB。

The SRM benchmark provides three primary datasets for evaluating spatial reasoning capabilities in generative models: the MNIST Sudoku dataset, which requires filling missing cells with MNIST digits and ensuring no duplicate digits appear in any row, column, or 3×3 subgrid; the Even Pixels dataset, which requires the generated image to have exactly 50% of its pixels belonging to each of the two colors; and the Counting Objects dataset, which tests the model's object counting capabilities. All datasets support automated downloading and evaluation, with a total size of less than 3 GB.

创建时间：

2025-11-06

原始信息汇总

SRM Benchmarks 数据集概述

数据集简介

SRM Benchmarks 是一个用于测试图像生成模型对复杂空间关系理解能力的基准数据集和评估指标集合。基于ICML 2025论文《Spatial Reasoning with Denoising Models》的原生实现。

数据集特性

三个具有挑战性的数据集（MNIST Sudoku、Even Pixels、Counting Objects）
每个数据集配备自动化评估指标
从Hugging Face自动下载数据集文件和评估模型
采用延迟生成、低数据量方式实现（所有数据集+模型<3GB）

数据集详情

🧩 MNIST Sudoku 数据集

挑战任务：通过填充缺失单元格中的MNIST数字来修复图像，要求任何行、列或3×3子网格中数字不重复。

模型需理解内容：

数字识别：正确理解和生成MNIST数字 [简单]
空间关系：行、列和子网格的唯一性 [困难]

技术规格：

图像尺寸：252×252像素（9×9网格，每个为28×28 MNIST数字）
格式：灰度图像及对应掩码
掩码：指示给定单元格（白色）与需填充单元格（黑色）
难度：可通过min_given_cells和max_given_cells参数配置

评估指标：

is_valid_sudoku：布尔值，指示是否为有效数独
duplicate_count：约束违反次数（0为完美）

🎨 Even Pixels 数据集

挑战任务：生成图像，要求恰好50%像素为一种颜色，50%为另一种颜色，且具有均匀饱和度和亮度。

模型需理解内容：

颜色选择：选择HSV颜色空间中相反的两种颜色 [简单]
像素级计数：两种颜色间的精确平衡 [困难]

技术规格：

图像尺寸：32×32像素
格式：RGB图像
颜色约束：图像中有两种颜色（具有相反的色调值），随机分布，但每种颜色的像素数恰好占总像素数的50%

评估指标：

color_imbalance_count：与完美50/50分割的偏差（0为完美）
is_color_count_even：精确像素平衡的布尔值（1.0为完美）
saturation_std：饱和度标准差（应接近0）
value_std：亮度标准差（应接近0）

🔢 Counting Objects 数据集

挑战任务：生成包含多边形或星形对象的图像，要求显示的数字与实际对象数量匹配。

模型需理解内容：

一致性：图像中所有对象具有相同顶点数（均匀约束） [中等]
数字匹配：显示数字与实际对象数量和顶点数匹配 [困难]

技术规格：

图像尺寸：128×128像素
格式：在FFHQ背景人脸上叠加对象的RGB图像
变体：
- 多边形：3-7边形
- 星形：2-9角星
数字：可选叠加显示对象数量（通过are_nums_on_images参数）

评估指标：

are_vertices_uniform：所有对象具有相同顶点数的比例
numbers_match_objects：显示数字与实际数量匹配的比例
可选附加指标：
- relative_vertex_count_N：具有N顶点对象的图像比例
- relative_polygons_count_N：具有N个对象的图像比例

许可证信息

代码：MIT许可证

数据集许可证：

MNIST Sudoku数据集：MNIST图像使用Creative Commons Attribution-Share Alike 3.0 (CC BY-SA 3.0)
Counting Objects数据集：
- FFHQ数据集：Creative Commons BY-NC-SA 4.0（通常限制非商业用途）
- Roboto字体：Apache License 2.0

引用信息

bibtex @inproceedings{wewer25srm, title = {Spatial Reasoning with Denoising Models}, author = {Wewer, Christopher and Pogodzinski, Bartlomiej and Schiele, Bernt and Lenssen, Jan Eric}, booktitle = {International Conference on Machine Learning ({ICML})}, year = {2025}, }

搜集汇总

数据集介绍

构建方式

在空间推理研究领域，SRM Benchmarks通过三个精心设计的子数据集构建评估体系。MNIST Sudoku数据集采用数独规则约束，将28×28像素的MNIST数字嵌入252×252的九宫格中，通过可配置的掩码机制控制已知单元格数量。Even Pixels数据集生成32×32像素的RGB图像，严格遵循HSV色彩空间中两种互补色各占50%像素的平衡原则。Counting Objects数据集则在128×128像素的FFHQ人像背景上叠加多边形或星形物体，通过顶点数量与物体数量的对应关系构建语义约束。

特点

该数据集的核心特征体现在多维度的空间关系建模能力。MNIST Sudoku子集通过数独规则检验模型对行列约束的认知，Even Pixels侧重像素级色彩分布平衡的量化评估，Counting Objects则聚焦几何形体数量与视觉表征的一致性验证。所有数据集采用惰性生成技术实现高效存储，总体数据量控制在3GB以内，并配备标准化的自动化评估指标。每个子集均提供可调节的难度参数，支持从基础识别到复杂推理的多层次能力测试。

使用方法

研究者可通过PyPI安装srmbench工具包，利用标准PyTorch数据加载流程调用各子数据集。训练阶段使用MnistSudokuDataset、EvenPixelsDataset等类加载图像数据，配合掩码变换实现条件生成任务。评估阶段调用专用评估类对生成结果进行量化分析，如MnistSudokuEvaluation可检测数独规则符合度，EvenPixelsEvaluation能精确计算色彩分布偏差。工具包提供完整的示例代码与预训练模型对接方案，支持在CPU/GPU环境中快速部署实验流程。

背景与挑战

背景概述

SRM Benchmarks数据集由马克斯·普朗克信息学研究所等机构于2025年提出，作为ICML会议论文《Spatial Reasoning with Denoising Models》的核心成果。该数据集聚焦于评估生成模型对复杂空间关系的理解能力，通过三个专项任务——数独数字布局、像素均衡分布与物体计数一致性，系统检验模型在结构化约束下的推理性能。其创新性在于将传统视觉任务提升至符号逻辑与几何约束的交叉领域，为生成式人工智能的认知能力评估建立了新范式。

当前挑战

该数据集针对生成模型在空间关系建模中的核心难点：数独任务需同时满足行列约束与局部网格唯一性，考验模型的多层次逻辑推理能力；像素均衡任务要求精确控制颜色分布的统计特性，揭示模型在微观尺度上的数值敏感性；物体计数任务则需维持几何特征一致性与数字标识的语义对齐，反映模型跨模态理解能力。构建过程中面临多重技术挑战，包括MNIST数字与FFHQ人像的跨域数据融合、动态掩码生成算法的设计，以及评估指标对隐含约束的量化表征，这些挑战共同推动了空间推理评估范式的标准化进程。

常用场景

经典使用场景

在计算机视觉与生成模型研究领域，SRM Benchmarks通过三个精心设计的子数据集系统评估模型对复杂空间关系的理解能力。其中MNIST Sudoku要求模型在数独网格中填充缺失数字并满足行列约束，Even Pixels测试像素级颜色分布的精确控制，Counting Objects则验证对象数量与视觉表征的一致性。这些任务共同构成了生成模型空间推理能力的标准化测试框架，为模型性能比较提供了统一基准。

解决学术问题

该数据集有效解决了生成模型研究中空间关系建模的量化评估难题。传统生成模型评估指标如FID和IS主要关注视觉质量，而SRM Benchmarks通过结构化约束任务，首次实现了对模型空间推理能力的系统化测量。其评估体系能够揭示模型在理解几何约束、数量对应关系和分布平衡等深层认知任务中的缺陷，为改进模型架构提供了明确方向，推动了生成式人工智能向更高层次认知能力发展。

衍生相关工作

基于该数据集的核心思想，研究社区衍生出多项创新工作。部分研究扩展了空间约束类型，开发了针对三维物体布局的评估基准；另有工作将计数任务推广至动态场景，建立了视频序列中的对象追踪评估体系；还有研究者受其启发，设计了结合符号推理与神经生成的混合模型架构。这些衍生工作共同推动了空间推理研究从静态图像向复杂场景的纵深发展，形成了完整的评估方法演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集