cellarc_100k_meta

Hugging Face2025-11-04 更新2025-11-05 收录

下载链接：

https://huggingface.co/datasets/mireklzicar/cellarc_100k_meta

下载链接

链接失效反馈

官方服务：

资源简介：

CellARc 100k Meta是一个元数据丰富的伴随数据集，它保留了轻量级CellARc split在生成期间产生的每个字段，同时保持了对Hugging Face的友好性。该数据集通过保持查询窗口完全由支持集覆盖的剧集来提供高覆盖率的刷新。数据集包含训练、验证、插值测试和 extrapolation 测试的数据，并且每个剧集都包含了详细的元数据和规则表。

创建时间：

2025-10-29

原始信息汇总

CellARc 100k Meta 数据集概述

数据集基本信息

名称：CellARc 100k Meta
语言：英语
许可证：MIT
标注创建方式：机器生成
数据规模：10K-100K
任务类别：其他、文本生成、视觉问答、图像到图像、强化学习
任务ID：语言建模、视觉问答、图像修复
标签：元胞自动机、ARC、推理

数据特征

词汇表：单元格值使用整数标签0-3（字母表大小固定为4）
列表长度：每个训练、查询或解决方案列表包含恰好15个条目
完整任务格式：拼接所有列表产生180个整数
JSON键：id、train[].input、train[].output、query、solution、meta、rule_table

数据集内容

数据格式：JSONL和Parquet格式
数据分割：
- train
- val
- test_interpolation
- test_extrapolation

元数据特性

完整元数据：包含数据集生成期间捕获的完整每集元数据
覆盖度筛选：仅保留查询窗口被支持集完全覆盖的片段
额外字段：
- meta：结构化描述（字母表大小、半径、步数、窗口、训练/查询跨度描述符等）
- rule_table：元胞自动机规则的显式查找表（base64编码）
- id：注入的指纹别名

技术规格

文件大小：约比轻量级版本大4.6倍
数据一致性：Parquet文件与轻量级包字节相同
流式支持：保持行分隔格式以支持流式处理

使用场景

通过λ/熵箱或形态描述符分析课程难度
按构建方式（循环、展开、混合）或家族（随机、完全性等）过滤子集
在评估期间通过rule_table重建精确的CA规则

许可证与引用

许可证：继承存储库许可证
引用要求：使用此数据集时请引用CellARc项目

搜集汇总

数据集介绍

构建方式

在元胞自动机与抽象推理交叉领域，CellARc 100k Meta数据集通过系统化生成流程构建而成。该数据集采用覆盖度筛选机制，仅保留支持集完全覆盖查询窗口的样本用于训练与内插测试集，而将覆盖度最低的千个样本划入外推测试集，从而在保持数据标识稳定的前提下实现受控分布偏移。生成过程中完整记录每个样本的元数据、规则表及覆盖度诊断指标，并通过标准化脚本确保数据结构的可复现性。

特点

作为轻量级CellARc数据集的元数据增强版本，本数据集最显著的特点是完整保留了生成过程中捕获的元信息。每个样本除基础监督字段外，还包含规则表、语言熵统计、形态学信号等深度分析指标，形成约4.6倍于轻量版的丰富数据层。其固定长度的细胞值序列（15个整数）与受限的字母表规模（0-3）为算法研究提供了标准化测试环境，而基64编码的规则表则支持精确的元胞自动机规则重建。

使用方法

研究者可通过加载JSONL格式数据流直接访问完整的元数据体系。典型应用场景包括基于语言熵分箱的课程难度分析，通过构造类型（循环/展开/混合）或规则族（随机/完全性）进行数据筛选，以及利用规则表字段在评估阶段重建精确的元胞自动机规则。数据集保持与轻量版完全相同的特征定义与统计文件，确保模型在两种版本间能够无缝迁移训练与评估。

背景与挑战

背景概述

在人工智能与复杂系统研究领域，细胞自动机（Cellular Automata, CA）长期被视为探索自组织行为与计算普适性的关键模型。CellARc 100k Meta数据集由相关研究机构于近期构建，旨在通过元数据增强的监督学习框架，推动抽象推理与规则归纳能力的发展。该数据集以细胞自动机为基础，聚焦于从有限示例中推断动态规则的核心问题，其结构化设计显著提升了机器学习模型处理符号序列与空间模式的能力，对强化学习、视觉问答及多模态任务产生了深远影响。

当前挑战

该数据集致力于解决细胞自动机规则归纳中的泛化性难题，尤其在面对分布外数据时模型易出现性能衰减。构建过程中的挑战包括确保查询窗口在支持集中的完全覆盖，需精确计算加权覆盖率以划分插值与外推测试集；同时，元数据的完整性维护要求捕获每轮生成的全部参数与统计指标，涉及高维规则表编码、形态学信号量化及熵分箱等复杂操作，对数据一致性与存储效率提出了极高要求。

常用场景

经典使用场景

在元胞自动机与抽象推理研究领域，CellARc 100k Meta数据集凭借其丰富的元数据结构，成为探索复杂规则学习任务的理想基准。研究者通过解析其包含的完整生成元数据，能够深入分析训练与查询窗口之间的覆盖关系，进而设计出更精准的规则归纳模型。该数据集通过固定长度的输入输出序列与标准化词汇表，为评估模型在结构化模式推理中的泛化能力提供了严谨的实验环境。

衍生相关工作

基于该数据集衍生的经典研究主要集中在三个方向：一是利用元数据中的熵分布与形态学特征构建难度自适应的课程学习框架；二是通过规则表重建技术开发可解释的神经符号混合模型；三是借鉴其覆盖度度量方法构建新型的分布偏移检测算法。这些工作不仅推动了元胞自动机理论的发展，更为符号推理与神经网络融合的研究范式提供了重要实践案例。

数据集最近研究