five

SYGAR

收藏
arXiv2025-04-02 更新2025-04-08 收录
下载链接:
http://arxiv.org/abs/2504.01445v1
下载链接
链接失效反馈
官方服务:
资源简介:
SYGAR数据集是由慕尼黑大学信息与语言处理中心创建的,旨在评估模型在抽象空间推理中进行系统性泛化的能力。该数据集包含了对二维对象进行的基本几何变换(如平移、旋转、反射)及其组合。通过在网格环境中对对象应用这些变换,数据集为研究提供了评估模型泛化能力的手段,特别是在处理之前未见过的变换组合时。SYGAR的创建是为了解决模型在抽象空间推理领域的系统性泛化问题,推动研究向更稳健、更通用的模型发展。

The SYGAR dataset was developed by the Center for Information and Language Processing at LMU Munich (Ludwig-Maximilians-Universität München) to evaluate models' systematic generalization capabilities in abstract spatial reasoning. This dataset covers basic geometric transformations (e.g., translation, rotation, reflection) applied to two-dimensional (2D) objects, as well as combinations of these transformations. By applying these transformations to objects within a grid-based environment, the dataset provides a research tool for assessing models' generalization performance, particularly when handling previously unseen transformation combinations. The SYGAR dataset was created to address the systematic generalization problem of models in the field of abstract spatial reasoning, and to advance research toward more robust and general-purpose models.
提供机构:
慕尼黑大学信息与语言处理中心
创建时间:
2025-04-02
搜集汇总
数据集介绍
main_image_url
构建方式
SYGAR数据集的构建基于抽象空间推理任务,旨在评估模型对二维对象几何变换的系统性泛化能力。数据集通过动态生成的视觉解释语法,将基本几何变换(如平移、旋转)及其组合(如平移+旋转)应用于10×10网格环境中的对象。每个样本由输入-输出网格对组成,其中输出网格是通过特定变换规则生成的。数据生成过程确保了变换组合的多样性和系统性,以测试模型在未见组合上的泛化能力。
特点
SYGAR数据集的核心特点在于其系统性设计,通过分层组合基本几何变换(如平移、旋转、反射、扩展和颜色变化)构建复杂任务。数据集包含三个层级的变换组合:基础变换、一级组合(两种指标组合)和二级组合(三种指标组合)。网格对象通过形状、颜色和邻近对象三种指标定义变换规则,支持对模型组合推理能力的细粒度评估。此外,数据集采用动态语法设计,确保训练集和测试集的变换组合无重叠,从而严格测试系统性泛化能力。
使用方法
使用SYGAR时,研究者可通过两种任务设置评估模型:标准少样本学习任务要求模型根据3个示例推断目标变换;系统性任务则需从12个基础变换和一级组合示例中推导二级组合变换。输入数据以10×10整数矩阵表示网格状态,输出需预测变换后的网格。评估采用精确匹配准确率、颜色准确率和形状准确率三项指标。模型需通过编码器-解码器架构处理网格序列,其中网格被分割为2×2的块并嵌入为向量,同时结合位置编码捕捉空间信息。
背景与挑战
背景概述
SYGAR数据集由LMU Munich的MaiNLP团队于2025年提出,旨在探索抽象空间推理中的系统性泛化能力。该数据集聚焦于二维网格环境中几何变换(如平移、旋转)及其组合的认知建模,填补了元学习组合性(MLC)方法在非语言任务中的应用空白。其创新性体现在将Lake与Baroni提出的伪语言指令学习框架扩展至视觉领域,通过10×10网格中物体的形状、颜色和邻域关系等指标,构建了包含基础变换与多级组合变换的评估体系。该工作首次证实了MLC在空间推理任务中促进系统性泛化的有效性,为认知架构研究提供了新的实验范式。
当前挑战
SYGAR面临的核心挑战包含两个维度:在领域问题层面,需解决大型语言模型对未见几何变换组合的泛化瓶颈,如GPT-4等模型在文本-视觉模态对齐中表现出的组合推理缺陷;在构建层面,需精确控制变换组合的闭包性质,确保五类基础变换(平移/旋转/反射/扩展/变色)在三级组合(原始/一级/二级)中的数学严谨性。具体挑战包括:1)定义形状-颜色-邻域三类指标与变换的映射规则时需避免语义歧义;2)生成10^4量级的网格样本时需保证物体连通性与非重叠性;3)平衡组合变换的复杂性与人类可解释性。
常用场景
经典使用场景
SYGAR数据集在抽象空间推理领域中被广泛用于评估模型对几何变换的系统性泛化能力。该数据集通过构建二维网格环境中的基本几何变换(如平移、旋转、反射)及其组合,为研究者提供了一个标准化的测试平台。在经典使用场景中,模型需要从已知的单一变换示例中学习,并将其推广到未见过的组合变换任务上,例如同时处理平移与旋转的复合操作。这种设定模拟了人类认知中从简单规则推导复杂组合的能力,成为衡量模型系统性推理能力的基准工具。
实际应用
在实际应用层面,SYGAR数据集的能力可迁移至机器人路径规划、医学图像增强等需要空间推理的领域。例如在自动驾驶系统中,车辆需实时组合多种空间变换(如障碍物位移预测与视角旋转)来调整路径;在AR/VR场景中,该技术能支持动态环境下的物体位姿组合运算。数据集验证的MLC方法为这些应用提供了可解释、低样本需求的解决方案,其99.92%的单变换识别精度展现出工业落地的潜力。
衍生相关工作
SYGAR催生了多项关于组合泛化的延伸研究,包括将MLC框架扩展至三维空间变换的Sy3D数据集,以及结合符号推理的Neuro-Symbolic ARC挑战赛。受其启发,DeepMind开发的GeoGen系统采用类似范式处理分子构象预测,而MIT团队构建的SpatialBERT则将该方法融入预训练语言模型。这些工作共同推进了系统性推理在跨模态任务中的应用,形成'组合元学习'这一新兴研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作