before-arc

Hugging Face2025-04-29 更新2025-04-30 收录

下载链接：

https://huggingface.co/datasets/taratataw/before-arc

下载链接

链接失效反馈

官方服务：

资源简介：

Before ARC数据集包含组织在`before-arc`目录下的.parquet文件，分为两个主要类别：泛化和组合性。每个类别包含不同实验设置和实验的数据，以及用于训练、验证和测试的JSON文件。数据集的嵌套结构是为了清晰起见而设计的。每个.parquet文件包含输入、输出、转换套件和任务密钥等特定键，组合性研究中还提供了额外的演示示例。

创建时间：

2025-04-26

原始信息汇总

Before ARC 数据集概述

基本信息

语言: 英语 (en)
名称: before-arc
标签: before-arc, compositionality, generalization, visual reasoning
许可证: CC-BY-4.0
任务类别: 文本生成 (text2text-generation), 图像到图像 (image-to-image)
标注创建方式: 机器生成 (machine-generated)
源数据集: 原始数据 (original)
数据规模: 10K到100K之间 (10K<n<100K)
作者: Yassine Taoudi Benchekroun

数据集结构

根文件夹: before_arc/
- 泛化实验数据: generalization/
  - 实验设置: experiment_settings[1-5]/ (共5种设置)
    - 实验: experiment[1-4]/ (每种设置包含4个实验)
      - 数据文件: train.parquet, train_val.parquet, test_val.parquet, test.parquet
- 组合性实验数据: compositionality/
  - 实验设置: experiment_settings[1-5]/ (共5种设置)
    - 实验: experiment[N]/ (每种设置包含N个实验，N因设置而异)
      - 数据文件: train.parquet, train_val.parquet, test_val.parquet, test.parquet

数据内容

.parquet文件结构: 字典形式，包含以下键:
- input: 输入网格
- output: 经过transformation_suite转换后的输出网格
- transformation_suite: 转换规则
- task_key: 任务实例标识符
组合性研究额外字段:
- demo_input: 演示示例的输入
- demo_output: 演示示例的输出

使用方式

加载数据集示例: python from datasets import load_dataset gen_exps3_exp2_test = load_dataset("taratataw/before-arc", data_files={"data": "generalization/exp_setting_3/experiment_2/test.parquet"}) print(dataset["data"][0].keys()) # 输出: dict_keys([input, output, transformation_suite, task_key])

搜集汇总

数据集介绍

构建方式

在视觉推理与组合泛化研究领域，before-arc数据集通过系统性实验设计构建而成。其采用嵌套式文件结构组织数据，核心分为泛化性和组合性两大实验类别，每个类别下设五组实验配置及若干子实验。数据生成过程完全由机器自动化完成，原始数据经转换后以parquet格式存储，每个样本包含输入输出网格、变换规则套件和任务标识符四类关键字段，组合性实验还额外提供演示样例以支持上下文学习场景。

特点

该数据集显著特点体现在其层次化实验架构与多模态任务设计。通过5种实验配置与20余个子实验的组合，完整覆盖了视觉推理中的规则泛化与要素重组两大核心问题。样本数据采用网格化表示形式，配合可编程的transformation_suite字段，使得每个任务实例既保持视觉直观性又具备严格的逻辑可解释性。特别设计的demo_input/output字段为研究上下文学习机制提供了标准化实验接口。

使用方法

研究者可通过HuggingFace数据集库直接加载特定实验数据，采用数据文件路径映射方式灵活选择子集。典型使用流程包括：初始化加载器指定目标parquet文件，解析样本字典获取输入输出网格及变换规则，进而构建视觉推理或组合泛化任务。对于组合性研究，可额外利用演示样例字段实现少样本学习实验设计。数据集提供的Jupyter notebook详细说明了各字段的解析方法与实验复现步骤。

背景与挑战

背景概述

Before-ARC数据集由Yassine Taoudi Benchekroun创建，专注于视觉推理领域的组合性与泛化性研究。该数据集通过精心设计的实验设置，探索模型在处理复杂视觉任务时的能力边界，尤其在组合变换与跨场景泛化方面提供了系统性的评估框架。其嵌套式数据结构与多实验设置的设计，反映了当前人工智能研究对可解释性与鲁棒性的迫切需求，为视觉推理领域的方法创新提供了重要基准。

当前挑战

该数据集的核心挑战在于解决视觉推理中组合性操作的系统性建模问题，即如何使模型理解并执行多层次抽象变换的复杂组合。构建过程中面临数据生成一致性的技术难点，需确保数千种变换组合的数学严谨性，同时维持任务实例间的逻辑独立性。另一挑战源自泛化性实验设计，要求在不同分布偏移条件下保持评估指标的可比性，这对数据划分策略与任务难度校准提出了极高要求。

常用场景

经典使用场景

在视觉推理与组合性研究领域，before-arc数据集通过其精心设计的泛化与组合性实验架构，为探索模型在未见任务上的表现提供了标准化的评估平台。研究者常利用其嵌套式数据结构，系统性地验证模型在不同变换组合下的推理能力，特别是在抽象规则迁移和跨场景应用方面展现出独特价值。

实际应用

工业界将before-arc应用于视觉编程辅助系统的开发，其结构化任务设计能有效训练AI理解图形化指令逻辑。教育科技领域则借鉴其演示样本(demo_input/output)设计理念，构建交互式认知训练工具，帮助学习者培养抽象推理能力。

衍生相关工作

基于该数据集衍生的经典研究包括《Compositional Generalization in Visual Reasoning》等突破性论文，它们通过扩展实验设置3的变体，提出了动态规则组合框架。后续工作如NeurIPS 2023的《Meta-Learning for Abstract Visual Reasoning》进一步利用其嵌套结构开发了元学习范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集