COGITAO

Name: COGITAO
Creator: 瑞士苏黎世大学神经信息研究所和ETH苏黎世理工学院,苏黎世应用科学大学人工智能中心,ETH苏黎世理工学院,瑞士苏黎世大学神经信息研究所和ETH苏黎世理工学院
Published: 2025-09-06 01:01:05
License: 暂无描述

arXiv2025-09-06 更新2025-09-09 收录

下载链接：

https://github.com/yassinetb/COGITAO

下载链接

链接失效反馈

官方服务：

资源简介：

COGITAO是一个模块化和可扩展的数据生成框架和基准，旨在系统地研究视觉领域中的组合性和泛化性。它构建了基于规则的网格环境中的对象转换任务，支持在28个可互操作的转换上以可调整的深度进行组合，并具有广泛的网格参数化和对象属性控制。这种灵活性使得可以创建数百万个独特的任务规则，远远超过当前的同类数据集。COGITAO旨在生成简单的、以对象为中心的数据，以精确评估视觉机器学习方法在组合泛化方面的能力。我们提供了一个基准数据集，并使用最先进的视觉模型进行实验，发现模型在泛化到新颖的组合时表现不佳，这突出了研究组合泛化方法的紧迫性。

COGITAO is a modular and extensible data generation framework and benchmark dedicated to systematically investigating compositionality and generalization in the visual domain. It implements rule-based object transformation tasks in grid environments, supporting compositional combinations with adjustable depth across 28 interoperable transformations, and features extensive grid parameterization and object attribute control. This flexibility enables the generation of millions of unique task rules, far exceeding those of current comparable datasets. COGITAO aims to generate simple, object-centric data to precisely evaluate the performance of visual machine learning methods in compositional generalization. We present a benchmark dataset, conducted experiments using state-of-the-art visual models, and found that these models perform poorly when generalizing to novel compositions, which underscores the urgency of researching methods for compositional generalization.

提供机构：

瑞士苏黎世大学神经信息研究所和ETH苏黎世理工学院,苏黎世应用科学大学人工智能中心,ETH苏黎世理工学院,瑞士苏黎世大学神经信息研究所和ETH苏黎世理工学院

创建时间：

2025-09-06

原始信息汇总

COGITAO 数据集概述

数据集简介

COGITAO 是一个用于生成抽象推理任务的数据集，专注于形状和变换的组合生成。数据集通过预计算的形状和条件简化生成过程，支持灵活配置以创建多样化的输入-输出对网格。

核心组件

形状库：预创建的形状集合存储在专用的.h5py文件中，每个形状配置可生成多个变体。
条件计算：形状的条件预先计算，支持用户扩展或重新计算特定条件。
变换操作：支持多种变换组合，允许随机采样或指定变换序列。

配置参数

形状参数

min_n_shapes_per_grid：整数，≥1，每个网格中形状的最小数量。
max_n_shapes_per_grid：整数，≥1且≥min_n_shapes_per_grid，每个网格中形状的最大数量。

网格参数

min_grid_size：整数，≥1，网格最小尺寸。
max_grid_size：整数，≥1且≥min_grid_size，网格最大尺寸。

变换参数

min_n_transformations：整数，≥1，最小变换数量。
max_n_transformations：整数，≥1且≥min_n_transformations_per_grid，最大变换数量。
allowed_combinations：列表的列表或None，允许的变换组合。
allowed_transformations：列表或None，允许的变换类型。
min_transformation_depth：整数，≥1，最小变换深度（当使用allowed_transformations时必需）。
max_transformation_depth：整数，≥1且≥min_transformation_depth，最大变换深度（当使用allowed_transformations时必需）。

其他参数

n_examples：整数，≥1，生成的示例数量。
shape_compulsory_conditionals：列表，形状必须满足的条件约束，可为空列表。

使用说明

通过修改k_obj_per_config变量可扩展形状数量。
运行compute_conditions.py脚本可重新计算条件。
配置以字典形式传递给生成器，有效性由Config类验证。

文件资源

预计算形状集：arcworld/datasets/shapes.h5py
演示代码：demo.ipynb
形状生成：shapes.py
条件计算：compute_conditions.py
变换定义：transforms.py
条件定义：conditionals.py
配置验证：config_validation.py

约束说明

网格尺寸与形状数量、变换深度需协调考虑，推荐最小网格尺寸为10。
变换必须在transforms.py中定义，条件必须在conditionals.py中定义。
仅可使用allowed_combinations或allowed_transformations之一，不可同时使用。

搜集汇总

数据集介绍

构建方式

在视觉推理研究领域，COGITAO数据集通过模块化生成框架构建，采用基于规则的任务生成方法。该框架在网格环境中对预生成的23,000个独特对象应用28种可互操作的原子变换，通过随机组合变换序列形成多样化任务。生成算法确保对象在变换过程中保持网格边界内且避免碰撞，每个任务由输入网格、变换序列及对应输出网格组成，支持任意深度的组合变换，从而创建数百万种独特规则。

使用方法

该数据集的使用需遵循其基准实验范式，包括组合泛化（CompGen）与环境泛化（EnvGen）两大研究维度。研究人员可通过指定变换序列深度、网格参数及对象属性来生成训练与测试样本。模型需根据输入网格和变换序列预测输出网格，并通过比较域内（ID）与域外（OOD）性能评估泛化能力。任务嵌入机制通过符号序列标识变换顺序，支持模型处理未见过的组合变换，从而系统检验其组合推理能力。

背景与挑战

背景概述

视觉推理领域长期面临组合性与系统性泛化的核心挑战，COGITAO数据集于2025年由苏黎世联邦理工学院、苏黎世大学神经信息学研究所及苏黎世应用科学大学联合团队推出，旨在构建可控制组合深度的规则化视觉推理任务。该数据集通过28种可互操作的基础变换操作，在网格环境中生成数百万种独特任务规则，显著超越了同期数据集的规模与灵活性，为研究机器学习模型的结构化推理能力提供了标准化测试基准。

当前挑战

COGITAO需解决视觉组合泛化问题的双重挑战：一是模型需在陌生组合环境中正确应用已学习的原子变换规则，例如从单一旋转操作泛化至旋转与平移的组合操作；二是构建过程中需确保变换序列的可组合性与无歧义性，例如避免冗余变换（如“右上平移”等效于“上平移”与“右平移”的序列），同时处理对象在网格中的边界约束与碰撞检测等生成复杂性。

常用场景

经典使用场景

在视觉推理研究中，COGITAO数据集被广泛应用于评估模型对组合变换的泛化能力。其经典场景涉及模型学习一系列原子变换（如平移、旋转、镜像等）的组合规则，并在网格环境中根据输入网格和变换序列预测输出网格。该数据集通过控制变换序列的深度和环境参数的变化，系统化测试模型对未见组合的推理能力，成为研究组合泛化的核心工具。

解决学术问题

COGITAO解决了视觉领域组合泛化研究的多个关键问题，包括模型对已知元素新组合的泛化能力、变换序列深度的扩展性以及环境参数变化的适应性。其意义在于提供了可控的实验框架，能够精确分离视觉复杂度与组合推理能力，推动模型从模式识别向结构化推理的转变，对人工智能的核心认知能力研究具有深远影响。

实际应用

该数据集的实际应用涵盖智能教育系统、自动化程序生成和机器人任务规划等领域。在教育中，它可用于开发能够理解并执行多步视觉指令的AI助教；在程序生成中，支持基于规则的可视化代码合成；在机器人领域，为物体操作任务提供可解释的变换序列推理基础，促进AI在结构化环境中的实际部署。

数据集最近研究