cellarc_100k

Hugging Face2025-11-04 更新2025-11-05 收录

下载链接：

https://huggingface.co/datasets/mireklzicar/cellarc_100k

下载链接

链接失效反馈

官方服务：

资源简介：

CellARc 100k 是 CellARc 细胞自动机基准的轻量级分割版本，专为直接与 Hugging Face 的 `datasets` 库配合使用而打包。该数据集包含11k个细胞自动机推理episodes，精简为核心监督信号。数据集分为训练集、验证集、测试内插集和测试外推集，每个集包含不同数量的episodes，用于训练、验证和测试模型在细胞自动机推理任务上的性能。

创建时间：

2025-10-29

原始信息汇总

CellARc 100k 数据集概述

数据集基本信息

数据集名称: CellARc 100k
数据集类型: 轻量级分割版本
语言: 英语
许可证: MIT
标注创建方式: 机器生成
数据规模: 10K-100K
任务类别: 文本生成、视觉问答、图像到图像、强化学习、其他
任务ID: 语言建模、视觉问答、图像修复
标签: 元胞自动机、ARC、推理

数据特征

词汇表: 单元格值使用整数标签0-3（字母表大小固定为4）
列表长度: 每个训练、查询或解决方案列表包含15个条目
完整任务格式: 连接监督张量产生180个整数（5个支持对+查询+解决方案）
JSON键: id、train[].input、train[].output、query、solution

数据集内容

数据集包含11,000个元胞自动机推理片段，核心监督信号包括：

id：片段的确定性指纹
train：五个(input, output)对，构成支持集
query：推理时的保留观察
solution：查询的正确延续

数据分割

分割	片段数量	Parquet大小	说明
train	9,000	0.93 MB	高覆盖率课程（query_window_coverage_weighted = 1.0）
val	500	56 KB	相同覆盖率机制下保留用于早停
test_interpolation	500	55 KB	反映在train/val中看到的高覆盖率支持
test_extrapolation	1,000	0.11 MB	最低覆盖率余数用于压力测试泛化能力

关键统计特征

字母表大小固定为4；每个片段的半径=1，步数=1，窗口=3
每个片段五个训练示例（train_example_counts == 5）
Train/val/test_interpolation覆盖分数等于1.0；test_extrapolation集中在≈0.93
Langton λ偏向混沌机制（均值≈0.73），同时保持高熵（≈1.80比特）
样本长度保持恒定，每个窗口15个单元格；完整片段足迹总计180个单元格

数据字段说明

字段	类型	描述
id	字符串	唯一标识基础规则和采样配置的SHA256指纹
train	包含input/output的对象列表	每个条目都是扁平化的覆盖窗口：input是观察值，output是基础规则下的单步后继
query	整数列表	推理时呈现的扁平化查询窗口
solution	整数列表	查询的基础真值延续

文件结构

cellarc_100k/ ├── data/ │ ├── train.{jsonl,parquet} │ ├── val.{jsonl,parquet} │ ├── test_interpolation.{jsonl,parquet} │ └── test_extrapolation.{jsonl,parquet} ├── data_files.json ├── dataset_stats.json └── features.json

扩展变体

配套包cellarc_100k_meta共享相同的Parquet文件，但保留完整的元数据丰富的JSONL记录（生成参数、形态指标、规则表、覆盖注释等）。

搜集汇总

数据集介绍

构建方式

在元胞自动机推理任务的研究背景下，cellarc_100k数据集通过精心设计的采样策略构建而成。该数据集从CellARc基准中提炼出11,000个核心推理片段，每个片段包含五个训练示例，所有输入、查询及解决方案均采用固定长度为15的整数序列编码，取值范围限定在0至3之间。构建过程中，训练集、验证集及内插测试集严格筛选了查询窗口完全被训练支持覆盖的样本，而外推测试集则保留了覆盖度约为0.93的1,000个低覆盖样本，以评估模型在分布偏移下的泛化能力。

特点

cellarc_100k数据集展现出高度规范化的结构特征，其词汇表规模固定为4，每个序列长度统一为15个单元，完整任务通过拼接支持对、查询及解决方案形成180个整数的张量。数据集内所有样本均采用一维扁平化编码，并遵循生成过程中的标准覆盖顺序。值得注意的是，数据集在Langton λ参数上偏向混沌机制，平均值为0.73，同时保持约1.80比特的高熵值，这为研究复杂动力学行为提供了丰富的实验素材。

使用方法

针对机器学习实践需求，该数据集以JSONL和Parquet两种格式提供，用户可通过Hugging Face的datasets库直接加载。Parquet格式因其列式存储特性适用于大规模训练任务，而JSONL格式便于调试和轻量级脚本处理。加载时需指定对应的数据文件路径，若数据集已上传至Hugging Face Hub，则可直接通过仓库名称调用。此外，配套的cellarc_100k_meta变体保留了完整的元数据，支持更深入的规则分析与形态学研究。

背景与挑战

背景概述

细胞自动机作为复杂系统研究的重要模型，长期被用于探索自组织行为和计算普适性。CellARc 100k数据集由研究团队于2024年构建，聚焦于细胞自动机的推理能力评估，通过精炼的11,000个推理单元构建标准化测试基准。该数据集采用固定长度窗口与四值字母表的结构化设计，旨在推动机器学习模型在规则归纳与状态预测方面的研究，为可解释人工智能提供新的评估维度。

当前挑战

在细胞自动机规则推理领域，模型需从有限示例中抽象出局部演化规则并泛化至未见状态，这对符号推理与连续预测的协同提出严峻考验。数据集构建过程中面临覆盖度平衡的挑战：通过加权覆盖度阈值划分插值与外推测试集时，需在保持数据分布一致性的同时构建有效的分布偏移评估场景。此外，固定长度窗口与离散状态空间的约束要求生成算法在保证规则多样性的前提下维持结构一致性。

常用场景

经典使用场景

在元推理与程序归纳研究领域，cellarc_100k数据集通过其结构化的一维元胞自动机序列，为模型提供了从有限示例中推断潜在演化规则的核心场景。该数据集以固定长度的输入输出对作为监督信号，要求模型基于五个训练样本预测查询窗口的后续状态，这种设定精准模拟了人类从局部观察推导全局规律的认知过程。其严格控制的覆盖度阈值与分划策略，进一步确保了评估过程对泛化能力的科学度量。

衍生相关工作

该数据集的发布催生了多项突破性研究，特别是在神经符号计算交叉领域。基于其构建的Transformer变体在程序归纳任务中实现了显著性能提升，同时启发了新型记忆增强架构的开发。在可解释人工智能方向，研究者利用该数据集的透明规则特性，构建了用于分析神经网络决策过程的诊断工具，推动了AI系统推理机制的可视化与理论阐释。

数据集最近研究