cellarc_100k
收藏Hugging Face2025-11-04 更新2025-11-05 收录
下载链接:
https://huggingface.co/datasets/mireklzicar/cellarc_100k
下载链接
链接失效反馈官方服务:
资源简介:
CellARc 100k 是 CellARc 细胞自动机基准的轻量级分割版本,专为直接与 Hugging Face 的 `datasets` 库配合使用而打包。该数据集包含11k个细胞自动机推理episodes,精简为核心监督信号。数据集分为训练集、验证集、测试内插集和测试外推集,每个集包含不同数量的episodes,用于训练、验证和测试模型在细胞自动机推理任务上的性能。
创建时间:
2025-10-29
原始信息汇总
CellARc 100k 数据集概述
数据集基本信息
- 数据集名称: CellARc 100k
- 数据集类型: 轻量级分割版本
- 语言: 英语
- 许可证: MIT
- 标注创建方式: 机器生成
- 数据规模: 10K-100K
- 任务类别: 文本生成、视觉问答、图像到图像、强化学习、其他
- 任务ID: 语言建模、视觉问答、图像修复
- 标签: 元胞自动机、ARC、推理
数据特征
- 词汇表: 单元格值使用整数标签0-3(字母表大小固定为4)
- 列表长度: 每个训练、查询或解决方案列表包含15个条目
- 完整任务格式: 连接监督张量产生180个整数(5个支持对+查询+解决方案)
- JSON键: id、train[].input、train[].output、query、solution
数据集内容
数据集包含11,000个元胞自动机推理片段,核心监督信号包括:
- id:片段的确定性指纹
- train:五个(input, output)对,构成支持集
- query:推理时的保留观察
- solution:查询的正确延续
数据分割
| 分割 | 片段数量 | Parquet大小 | 说明 |
|---|---|---|---|
| train | 9,000 | 0.93 MB | 高覆盖率课程(query_window_coverage_weighted = 1.0) |
| val | 500 | 56 KB | 相同覆盖率机制下保留用于早停 |
| test_interpolation | 500 | 55 KB | 反映在train/val中看到的高覆盖率支持 |
| test_extrapolation | 1,000 | 0.11 MB | 最低覆盖率余数用于压力测试泛化能力 |
关键统计特征
- 字母表大小固定为4;每个片段的半径=1,步数=1,窗口=3
- 每个片段五个训练示例(train_example_counts == 5)
- Train/val/test_interpolation覆盖分数等于1.0;test_extrapolation集中在≈0.93
- Langton λ偏向混沌机制(均值≈0.73),同时保持高熵(≈1.80比特)
- 样本长度保持恒定,每个窗口15个单元格;完整片段足迹总计180个单元格
数据字段说明
| 字段 | 类型 | 描述 |
|---|---|---|
| id | 字符串 | 唯一标识基础规则和采样配置的SHA256指纹 |
| train | 包含input/output的对象列表 | 每个条目都是扁平化的覆盖窗口:input是观察值,output是基础规则下的单步后继 |
| query | 整数列表 | 推理时呈现的扁平化查询窗口 |
| solution | 整数列表 | 查询的基础真值延续 |
文件结构
cellarc_100k/ ├── data/ │ ├── train.{jsonl,parquet} │ ├── val.{jsonl,parquet} │ ├── test_interpolation.{jsonl,parquet} │ └── test_extrapolation.{jsonl,parquet} ├── data_files.json ├── dataset_stats.json └── features.json
扩展变体
配套包cellarc_100k_meta共享相同的Parquet文件,但保留完整的元数据丰富的JSONL记录(生成参数、形态指标、规则表、覆盖注释等)。
搜集汇总
数据集介绍

构建方式
在元胞自动机推理任务的研究背景下,cellarc_100k数据集通过精心设计的采样策略构建而成。该数据集从CellARc基准中提炼出11,000个核心推理片段,每个片段包含五个训练示例,所有输入、查询及解决方案均采用固定长度为15的整数序列编码,取值范围限定在0至3之间。构建过程中,训练集、验证集及内插测试集严格筛选了查询窗口完全被训练支持覆盖的样本,而外推测试集则保留了覆盖度约为0.93的1,000个低覆盖样本,以评估模型在分布偏移下的泛化能力。
特点
cellarc_100k数据集展现出高度规范化的结构特征,其词汇表规模固定为4,每个序列长度统一为15个单元,完整任务通过拼接支持对、查询及解决方案形成180个整数的张量。数据集内所有样本均采用一维扁平化编码,并遵循生成过程中的标准覆盖顺序。值得注意的是,数据集在Langton λ参数上偏向混沌机制,平均值为0.73,同时保持约1.80比特的高熵值,这为研究复杂动力学行为提供了丰富的实验素材。
使用方法
针对机器学习实践需求,该数据集以JSONL和Parquet两种格式提供,用户可通过Hugging Face的datasets库直接加载。Parquet格式因其列式存储特性适用于大规模训练任务,而JSONL格式便于调试和轻量级脚本处理。加载时需指定对应的数据文件路径,若数据集已上传至Hugging Face Hub,则可直接通过仓库名称调用。此外,配套的cellarc_100k_meta变体保留了完整的元数据,支持更深入的规则分析与形态学研究。
背景与挑战
背景概述
细胞自动机作为复杂系统研究的重要模型,长期被用于探索自组织行为和计算普适性。CellARc 100k数据集由研究团队于2024年构建,聚焦于细胞自动机的推理能力评估,通过精炼的11,000个推理单元构建标准化测试基准。该数据集采用固定长度窗口与四值字母表的结构化设计,旨在推动机器学习模型在规则归纳与状态预测方面的研究,为可解释人工智能提供新的评估维度。
当前挑战
在细胞自动机规则推理领域,模型需从有限示例中抽象出局部演化规则并泛化至未见状态,这对符号推理与连续预测的协同提出严峻考验。数据集构建过程中面临覆盖度平衡的挑战:通过加权覆盖度阈值划分插值与外推测试集时,需在保持数据分布一致性的同时构建有效的分布偏移评估场景。此外,固定长度窗口与离散状态空间的约束要求生成算法在保证规则多样性的前提下维持结构一致性。
常用场景
经典使用场景
在元推理与程序归纳研究领域,cellarc_100k数据集通过其结构化的一维元胞自动机序列,为模型提供了从有限示例中推断潜在演化规则的核心场景。该数据集以固定长度的输入输出对作为监督信号,要求模型基于五个训练样本预测查询窗口的后续状态,这种设定精准模拟了人类从局部观察推导全局规律的认知过程。其严格控制的覆盖度阈值与分划策略,进一步确保了评估过程对泛化能力的科学度量。
衍生相关工作
该数据集的发布催生了多项突破性研究,特别是在神经符号计算交叉领域。基于其构建的Transformer变体在程序归纳任务中实现了显著性能提升,同时启发了新型记忆增强架构的开发。在可解释人工智能方向,研究者利用该数据集的透明规则特性,构建了用于分析神经网络决策过程的诊断工具,推动了AI系统推理机制的可视化与理论阐释。
数据集最近研究
最新研究方向
在元胞自动机推理领域,cellarc_100k数据集正推动着符号推理与神经网络融合的前沿探索。该数据集通过高覆盖度的训练集与低覆盖度的外推测试集,为研究模型在分布偏移下的泛化能力提供了结构化基准。当前热点聚焦于将Transformer架构与规则归纳机制相结合,以解决复杂动态系统中的长期依赖问题。这类研究不仅提升了人工智能在抽象模式识别上的表现,还为可解释性推理系统的发展奠定了实验基础,对自动驾驶决策和物理模拟等跨学科应用具有深远意义。
以上内容由遇见数据集搜集并总结生成



