ARC-AGI-2
收藏github2025-03-27 更新2025-03-26 收录
下载链接:
https://github.com/arcprize/ARC-AGI-2
下载链接
链接失效反馈官方服务:
资源简介:
ARC-AGI-2包含1,000个训练任务和120个公共评估任务,旨在展示任务格式和ARC-AGI使用的核心知识先验。训练任务可用于训练AI模型,公共评估任务用于测试从未见过这些任务的AI模型。数据集还包含两个未公开的测试集,用于远程托管的商业模型和ARC Prize竞赛中的自包含模型测试。
ARC-AGI-2 consists of 1,000 training tasks and 120 public evaluation tasks, developed to showcase the task formatting and core knowledge priors employed by ARC-AGI. The training tasks are intended for training AI models, whereas the public evaluation tasks are used to assess AI models that have not been exposed to these tasks prior to testing. Additionally, the dataset contains two undisclosed test sets, which serve for testing remotely hosted commercial models and self-contained models participating in the ARC Prize competition.
创建时间:
2025-03-18
原始信息汇总
ARC-AGI-2数据集概述
数据集简介
- 名称:Abstraction and Reasoning Corpus for Artificial General Intelligence (ARC-AGI-2)
- 目标:作为通用人工智能基准测试,评估程序合成能力或心理测量智力测试,针对人类和模拟人类通用流体智能的人工智能系统。
- 相关文献:
数据集组成
- 训练任务:1,000个任务,用于演示任务格式和ARC-AGI的核心知识先验,可用于AI模型训练。
- 公开评估任务:120个任务,用于测试未见过这些任务的AI模型,人类测试样本的平均性能为60%。
- 私有测试集(未包含在仓库中):
- 半私有集:用于测试远程托管的商业模型,泄漏概率低,难度与公开评估集相同。
- 完全私有集:用于ARC Prize竞赛中测试自包含模型,泄漏概率接近零,难度相同。
任务成功标准
- 首次看到任务时,能够为所有测试输入生成正确的输出网格(包括选择输出网格的尺寸)。
- 每个测试输入允许2次尝试。
任务文件格式
- 目录结构:
data/training:包含1,000个训练任务文件,结合了ARC-AGI-1的任务和新任务。data/evaluation:包含120个评估任务文件,每个任务至少由2人在2次或更少尝试中解决。
- JSON格式:
"train":演示输入/输出对列表(通常3对)。"test":测试输入/输出对列表(通常1-2对)。
- 网格定义:矩形矩阵(列表的列表),整数范围0-9,最小尺寸1x1,最大尺寸30x30。
测试接口使用
- 查看任务:
- ARCPrize.org/play
- ARC-AGI测试接口(
apps/testing_interface.html)
- 工具:
- 网格控制:调整大小、从输入复制、重置网格。
- 符号控制:编辑、选择、填充。
- 答案验证:提交答案、切换下一个测试输入。
搜集汇总
数据集介绍

构建方式
ARC-AGI-2数据集作为衡量通用人工智能的基准,其构建过程体现了严谨的科学设计理念。数据集包含1,000个训练任务和120个公开评估任务,采用JSON格式存储每个任务的输入输出网格数据。训练任务旨在展示任务格式和核心知识先验,而评估任务则用于测试未见过的模型表现。为确保评估可靠性,特别设计了半私有和完全私有测试集,采用多层结构兼顾开放研究和竞赛需求。所有任务均通过人类测试验证,每个评估任务至少有两人在两次尝试内成功解决。
特点
该数据集最显著的特征是其对人类抽象推理能力的模拟要求。任务以网格形式呈现,包含1x1至30x30的整数矩阵,要求测试者根据演示输入输出对推断出测试输入的正确答案。数据集设计了严格的成功标准,要求所有测试输入的输出网格必须完全正确。多层次的测试结构既包含公开评估集,也设有防泄漏的私有测试集,为不同应用场景提供适配的评估方案。任务难度经过精心校准,人类平均正确率达到60%,在保证挑战性的同时具备可解性。
使用方法
使用者可通过两种主要方式与数据集交互:基于网页的测试界面或本地克隆的测试环境。任务以JSON文件格式存储,包含训练和测试两个部分,每个部分由输入输出网格对组成。在测试过程中,用户可利用丰富的网格控制工具,包括调整尺寸、符号编辑、选区操作和填充功能等。系统提供实时的答案验证机制,通过提交按钮检查输出准确性。为模拟真实测试环境,建议严格遵守两次尝试的限制,并通过'Next test input'按钮遍历所有测试输入。数据集特别强调开发过程中应避免评估集信息泄露,以确保结果的公正性。
背景与挑战
背景概述
ARC-AGI-2数据集作为衡量通用人工智能发展水平的重要基准,由著名AI研究者François Chollet等人于2019年提出,其理论基础详述于《On the Measure of Intelligence》论文中。该数据集延续了第一代ARC-AGI的核心设计理念,旨在通过程序合成任务评估智能体是否具备人类般的抽象推理能力。数据集包含1,000个训练任务和120个公开评估任务,采用网格变换的独特形式,要求智能体在有限尝试次数内推导出输入输出间的隐式规则。这种创新性的评估框架对推动认知架构研究和类人智能系统开发具有里程碑意义,已成为当前AGI研究领域最具影响力的测评标准之一。
当前挑战
ARC-AGI-2面临的核心挑战在于其设计的认知复杂度——任务要求智能体从极少量示例中归纳跨领域的抽象规则,这种少样本归纳推理正是当前AI系统的薄弱环节。数据构建过程中,研究者需精心设计具有认知多样性的任务集,确保每个评估任务至少被两名人类受试者在两次尝试内解决,同时维持任务间的难度平衡。网格化的任务表示形式虽然规避了自然语言理解的干扰,却引入了符号操作和空间推理的新挑战。多层级测试集的保密性要求(包括半私有集和完全私有集)进一步增加了基准验证的工程复杂度,这些特性使得ARC-AGI-2成为检验智能系统泛化能力的试金石。
常用场景
经典使用场景
在人工智能领域,抽象推理能力的评估一直是衡量智能系统通用性的关键指标。ARC-AGI-2数据集通过设计一系列基于网格的任务,要求测试者从有限的示例中归纳出抽象规则并应用于新的输入,从而模拟人类流体智力的核心特征。这一数据集被广泛用于评估和训练AI系统在程序合成、模式识别和逻辑推理等方面的能力,尤其在少样本学习和迁移学习场景中展现出独特价值。
实际应用
该数据集的实际应用延伸至教育测评和人才选拔领域,其任务形式被改造为认知能力评估工具。在工业界,基于ARC-AGI-2训练的模型可应用于自动化流程设计、异常检测等需要复杂模式发现的场景。竞赛平台通过私有测试集的设计,确保了商业AI系统评估的公正性,为投资决策提供了可靠的性能基准。
衍生相关工作
围绕ARC-AGI-2衍生的研究形成了跨学科的研究脉络。经典工作包括将认知架构CLARION适配为ARC求解器,以及神经符号系统如DeepMind的Transformer改良方案。MIT团队提出的‘程序归纳网络’直接受该数据集启发,而《Science Robotics》刊载的‘认知先验量化研究’则建立了任务难度与人类表现的相关性模型,推动了可解释AI的发展。
以上内容由遇见数据集搜集并总结生成



