1337xyz1337xyz/plan-crl-arc-agi-2
收藏Hugging Face2026-05-01 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/1337xyz1337xyz/plan-crl-arc-agi-2
下载链接
链接失效反馈官方服务:
资源简介:
这是一个Hugging Face镜像/打包的公共ARC-AGI-2任务数据集,用于PLAN-CRL ARC-AGI-2评估框架。数据集包含1000个训练任务和120个评估任务,每项任务包括任务ID、训练示例、测试输入、测试输出等信息。数据集的目的是为了评估模型的性能,其中prompt_json字段是面向模型的有效载荷,而test_outputs和reference_outputs_json字段仅用于离线评估,不应暴露给学生模型。
This is a Hugging Face mirror/packaging of the public ARC-AGI-2 tasks used by the PLAN-CRL ARC-AGI-2 evaluation harness. The dataset contains 1000 training tasks and 120 evaluation tasks, each including task ID, training examples, test inputs, test outputs, etc. The dataset is intended for evaluating model performance, where the prompt_json field is the model-facing payload, and the test_outputs and reference_outputs_json fields are for offline evaluation only and should not be exposed to the student model.
提供机构:
1337xyz1337xyz
搜集汇总
数据集介绍

构建方式
PLAN-CRL ARC-AGI-2数据集源自ARC-AGI-2公开任务,由PLAN-CRL评估框架打包并镜像至Hugging Face平台。该数据集继承上游仓库的原始任务结构,采用标准化拆分方式,包含1000个训练任务与120个评估任务。每个任务以JSON格式存储,涵盖任务标识符、输入输出网格、测试输入、参考输出以及源链接等关键字段,确保数据完整性与可复现性。
使用方法
使用时,研究者应主要调用`prompt_json`字段作为模型输入,通过训练集进行模型适配与调优,再以评估集的`test_inputs`进行推理。模型输出需与`reference_outputs_json`中的标准答案进行离线比对,实现确定性评分。需严格遵守`test_outputs`列为评估专用字段,避免在训练或模型交互中暴露,以维护评测公正性。
背景与挑战
背景概述
在人工智能研究的前沿,抽象推理与视觉智能的融合一直是通往通用人工智能的关键隘口。ARC-AGI(Abstraction and Reasoning Corpus for Artificial General Intelligence)挑战赛由François Chollet于2019年发起,旨在通过新颖的网格推理任务评估模型的泛化能力,而非依赖海量数据或计算资源。PLAN-CRL ARC-AGI-2数据集作为该挑战的第二代版本,由PLAN-CRL研究团队整理并托管于HuggingFace平台,专注于提供标准化、可复现的评估工具。该数据集包含1000个训练任务和120个评估任务,每个任务均由输入输出网格对构成,要求模型从少量示例中提取隐含的转换规则,并应用于新的测试案例。这一数据集在认知科学与机器学习交叉领域具有深远影响,推动了关于系统化推理、少样本学习以及程序化知识表征的前沿探索。
当前挑战
该数据集面对的挑战核心在于解决抽象推理领域的根本困境:模型需从极有限的示例中推断出高层次的、可迁移的规则,而非记忆表面模式。领域问题的挑战包括网格世界中复杂的空间变换(如缩放、旋转、对称)以及隐含的数学逻辑(如计数、分组),这些任务对人类轻而易举,却令最先进的深度学习方法望而却步。构建过程中的挑战则体现在任务设计的严谨性上:确保每个任务具有唯一的、可验证的正确答案,同时避免数据泄露或偏见;此外,还需将原始任务文件转化为标准化JSON格式(如prompt_json字段),以供模型与评估器无缝交互,同时通过分离测试输出与参考输出,维护评估的公平性与封闭性。
常用场景
经典使用场景
PLAN-CRL ARC-AGI-2数据集在认知科学与人工智能交叉领域扮演着不可或缺的角色,其经典使用场景聚焦于评估与训练模型在抽象视觉推理任务上的表现。该数据集由1000个训练任务与120个评估任务构成,每个任务均以网格形式呈现输入与输出模式,要求模型从少量示例中归纳潜在变换规则并应用于新的测试输入。这种设计旨在模拟人类智力测试中常见的类比推理与模式识别能力,从而为衡量机器在通用推理维度上的进展提供了一个严谨且具有挑战性的基准。
解决学术问题
该数据集的核心学术贡献在于精准定位并尝试解决当前人工智能领域长期存在的关键瓶颈——从有限示例中实现泛化性抽象推理。与传统深度学习方法依赖海量标注数据不同,ARC-AGI-2的每个任务仅包含极少数训练对,迫使模型必须突破模式记忆的窠臼,转向对底层规则的逻辑提炼。它有效暴露出主流神经网络在结构化推理与认知灵活性上的先天不足,进而推动研究者探索神经符号系统、元学习及程序归纳等前沿范式。这一数据集的发布不仅促进了学科内对通用人工智能判别标准的深刻反思,更为评估模型是否具备人类水平的认知迁移能力提供了可量化的实验沃土。
实际应用
在实际应用层面,PLAN-CRL ARC-AGI-2数据集所代表的抽象推理能力正逐步渗透至多个高价值场景。例如在自动化界面交互中,基于该数据集训练的模型能够理解图形化操作逻辑,根据不同屏幕布局自主推导按钮功能与流程步骤,从而赋能智能助手实现跨应用的复杂任务编排。在科学发现领域,网格推理机制可用于解析分子结构反应模式或天文观测中的几何变换规律,加速假设生成与验证循环。此外,工业质检与机器人视觉抓取场景也从中获益,模型可依据极少量缺陷样本泛化识别新型异常变体,提升产线适应性与鲁棒性,推动智能系统向更具通用性的实用形态演进。
数据集最近研究
最新研究方向
该数据集围绕ARC-AGI-2基准测试任务构建,聚焦于网格推理这一前沿方向,旨在评估和推动人工智能系统在抽象视觉推理与泛化能力上的突破。近期研究热点集中于利用PLAN-CRL框架的强化学习范式,探索模型在仅基于少量示例的条件下进行因果归纳与规则抽象的能力,这一方向直接关联到当前AI领域对系统性泛化与智能体自主规划能力的渴求。数据集划分的训练集与评估集分别包含1000和120个任务,为模型在复杂视觉模式识别与逻辑迁移上的表现提供了严谨的测试平台,其意义在于通过标准化评测促进可解释及强泛化AI系统的研发。
以上内容由遇见数据集搜集并总结生成



