cellarc

github2025-11-13 更新2025-11-19 收录

下载链接：

https://github.com/mireklzicar/cellarc

下载链接

链接失效反馈

官方服务：

资源简介：

CellARC是一个用于抽象推理的细胞自动机数据集生成库，包含训练、验证、插值测试和外推测试等分割，数据集以JSONL和Parquet格式存储，可通过Hugging Face Hub获取，支持元数据加载和可视化展示

CellARC is a cellular automaton dataset generation library for abstract reasoning. Its datasets include splits such as training, validation, interpolation testing, and extrapolation testing, are stored in JSONL and Parquet formats, and are accessible via the Hugging Face Hub. The library supports metadata loading and visualization.

创建时间：

2025-10-29

原始信息汇总

CellARC数据集概述

数据集基本信息

CellARC是一个基于元胞自动机的抽象推理数据集，用于抽象推理能力评估。

数据集组成与结构

数据格式

每个数据条目包含：id、五个训练对、一个查询/解决方案对以及元数据块
字母表使用数字0到k-1，k取值范围为[2,6]
每个片段包含五个监督对
训练/查询长度L在[5,21]之间（中位数为11）

数据集分割

分割类型	样本数量	Parquet文件大小
训练集	95,317	12,378,645字节
验证集	1,000	128,117字节
测试集（插值）	1,000	128,271字节
测试集（外推）	1,000	130,303字节

快速子集

提供100个样本的固定子集：

train_100
val_100
test_interpolation_100
test_extrapolation_100

规则空间与覆盖统计

参数分布

窗口大小W：{3, 5, 7}，分布为74.1%、13.3%、12.6%
半径r：{1, 2, 3}，分布为78.7%、8.7%、12.5%
步数t：{1, 2, 3}，约95.3%的片段使用单步展开

统计特征

全局覆盖分数：均值0.402（范围0.069-0.938）
Langtons lambda：均值0.565（范围0.016-1.000）
平均细胞熵：均值1.110比特（最大2.585）

规则族分布

随机：25.3%
全加性：24.8%
外全加性：18.7%
外内全加性：18.7%
阈值：11.9%
线性模k：0.7%

数据获取与使用

安装与加载

python from cellarc import EpisodeDataset, EpisodeDataLoader train = EpisodeDataset.from_huggingface("train", include_metadata=False) val = EpisodeDataset.from_huggingface("val", include_metadata=True)

可用数据分割

train
val
test_interpolation
test_extrapolation

数据存储格式

JSONL格式（默认加载器）
Parquet格式（设置fmt="parquet"以获得更快IO）

可视化功能

提供episode_cards可视化工具，可重建底层自动机并渲染ARC风格网格。

数据集存储库

主要数据集：https://huggingface.co/datasets/mireklzicar/cellarc_100k
元数据版本：https://huggingface.co/datasets/mireklzicar/cellarc_100k_meta

搜集汇总

数据集介绍

构建方式

在细胞自动机研究领域，CellARC数据集的构建采用了基于JAX/CAX框架的规则运行器与自动合成技术。该数据集通过确定性采样方法生成元数据丰富的任务序列，每条记录包含五个训练样本及对应的查询-解决方案对，并完整保留细胞自动机的规则表与指纹信息。数据生成过程严格遵循参数空间分布，涵盖窗口尺寸、半径和演化步数等关键变量，确保规则空间的系统覆盖。

使用方法

研究者可通过Hugging Face Hub直接加载数据集，支持JSONL与Parquet两种格式的灵活读取。标准工作流通过EpisodeDataLoader实现批量化处理与数据增强，可视化工具能重构自动机演化过程并生成ARC风格的任务卡片。安装完整扩展包后，用户还可调用规则采样器自主生成新的任务序列，为算法验证提供扩展接口。

背景与挑战

背景概述

在抽象推理与细胞自动机交叉研究领域，CellARC数据集于2024年由Mirek Lžičař团队构建，旨在推进机器推理能力的发展。该数据集聚焦于细胞自动机规则归纳问题，通过结构化任务模拟人类抽象思维过程，其核心价值在于将符号推理与动态系统演化相结合，为人工智能的泛化能力研究提供量化基准。

当前挑战

该数据集需解决细胞自动机规则空间的高维组合爆炸问题，其构建过程面临多重技术挑战：需在有限监督样本下保持规则泛化性，同时平衡不同拓扑结构（如总合性与阈值规则）的覆盖率；数据生成管道需严格保证演化轨迹的确定性，并克服高维状态空间对计算资源的压力。

常用场景

经典使用场景

在元胞自动机与抽象推理交叉研究领域，CellARC数据集通过结构化任务序列为机器学习模型提供系统化训练框架。其核心价值在于将离散动力系统的演化规则转化为可学习的模式识别问题，每个任务单元包含五个监督样本和查询-解决方案配对，支持模型从有限示例中推断潜在规则。这种设计特别适合研究归纳推理的泛化能力，常被用于评估神经网络在符号推理任务中的表现，为理解智能系统如何处理规则约束下的空间模式演化提供了标准化实验平台。

解决学术问题

该数据集有效解决了元胞自动机规则归纳中的核心挑战，即如何从局部观测推断全局演化规律。通过覆盖多种规则类型（随机型、全总和型、阈值型等）和参数空间（窗口尺寸、半径、步数），它系统化地探索了离散动力系统的可学习边界。其意义在于建立了规则复杂度与模型泛化能力的量化关联，为研究符号推理与连续表示之间的鸿沟提供了实证基础，推动了神经符号集成方法在复杂推理任务中的发展。

实际应用

在现实应用中，CellARC的规则归纳框架可迁移至工业缺陷检测、生物序列分析和网络异常识别等场景。其核心方法论——通过局部模式推演全局规则——为自动化系统诊断提供了新范式。例如在晶圆缺陷分类中，模型可借鉴该数据集的元胞邻域建模思路，将微观缺陷模式视为规则演化的结果，实现更精准的故障根因分析。这种将抽象推理转化为可操作洞察的能力，使该数据集成为连接理论计算模型与工程实践的重要桥梁。

数据集最近研究