five

ARC-AGI-1

收藏
arXiv2025-11-04 更新2025-11-06 收录
下载链接:
https://github.com/michaelhodel/arc-dsl/
下载链接
链接失效反馈
官方服务:
资源简介:
ARC-AGI-1数据集是一个抽象和推理领域的基准数据集,由Google创建,包含400个训练任务,每个任务有少量示例。这些任务涉及二维网格的变换,如平移、旋转、缩放、子矩阵选择等,并且每个任务都有清晰的自然语言描述。数据集的创建过程耗时且手工制作,旨在测试智能体从少量示例中学习并推广到新输入的能力。ARC-AGI-1数据集主要应用于评估和训练能够解决抽象和推理问题的算法,以推动人工智能通用智能的发展。

ARC-AGI-1 is a benchmark dataset in the field of abstraction and reasoning, developed by Google. It consists of 400 training tasks, each equipped with a small number of exemplars. These tasks cover transformations on 2D grids, including translation, rotation, scaling, submatrix selection, and more, with each task accompanied by a clear natural language description. The dataset is labor-intensive to construct and handcrafted, with the goal of testing the capacity of AI agents to learn from limited examples and generalize to new input instances. The ARC-AGI-1 dataset is mainly applied to evaluate and train algorithms capable of solving abstract and reasoning problems, thereby promoting the advancement of artificial general intelligence (AGI).
提供机构:
Google
创建时间:
2025-11-01
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能通用能力评估领域,ARC-AGI-1数据集通过人工精心构建了400项二维网格转换任务。每个任务包含3至5组输入输出示例,这些示例由专家耗时数月手工设计并验证,确保转换逻辑的严谨性与多样性。数据集采用紧凑的数字化网格表示形式,整体存储容量仅为1.44MB,体现了在有限样本条件下对核心推理能力的精准度量。
特点
该数据集最显著的特征在于其样本稀缺性与任务多样性并存的设计理念。每个任务仅提供极少量示范样本,旨在评估智能体从有限示例中抽象核心规律的能力。所有任务均涉及独特的空间几何变换规则,涵盖平移、旋转、缩放等操作,且不存在重复模式。这种设计既模拟了人类面对新问题时快速归纳的认知过程,又对机器学习模型的泛化能力提出了严峻挑战。
使用方法
研究者可通过解析数据集的JSON格式文件获取任务定义,每个任务包含训练集与测试集的网格对。典型使用流程包括:首先分析训练示例归纳转换规则,继而构建算法模型实现网格变换,最终在测试集验证泛化性能。该数据集特别适用于评估程序合成、符号推理等方法的有效性,在2025年谷歌代码高尔夫锦标赛中曾作为核心基准,要求参赛者提交能正确处理所有任务的通用解决方案。
背景与挑战
背景概述
抽象与推理语料库(ARC-AGI-1)于2019年由François Chollet等人提出,作为评估人工智能系统核心推理能力的重要基准。该数据集聚焦于技能获取效率的测量,通过二维网格变换任务考察智能体从少量示例中归纳抽象规则的能力。其设计理念强调人类水平的直观解题与机器学习的泛化挑战,仅包含400项任务且每项仅提供3至5个样本,总存储量不足1.5MB。这一特性使其成为检验人工通用智能进展的关键工具,在神经符号推理与程序归纳等领域持续引发深入研究。
当前挑战
ARC-AGI-1面临双重挑战:在领域问题层面,其核心任务要求智能体从极少量示例中推断出复杂的空间变换规则,这对依赖大数据训练的深度学习模型构成显著泛化障碍。构建过程中,人工设计所有网格变换的严谨性导致数据集规模受限,且确保样本分布一致性与任务多样性的平衡需耗费大量验证成本。此外,随着相关求解器的普及,数据污染风险加剧,如何建立可靠评估基准成为持续性问题,促使研究者开发如ARC-GEN等生成器以扩展样本空间。
常用场景
实际应用
在实际应用层面,ARC-AGI-1数据集已被整合到多个重要技术竞赛中,如2025年谷歌代码高尔夫锦标赛。这些竞赛要求参赛者开发能够解决所有四百个训练任务的程序实现,并通过ARC-GEN生成器产生的大量样本来验证方案的通用性。该数据集还促进了教育领域认知能力评估工具的开发,为理解人类抽象思维过程提供了计算模型参考。在自动化程序合成领域,基于该数据集训练的模型展现出生成可解释推理代码的潜力。
衍生相关工作
围绕该数据集已衍生出多个具有影响力的研究方向。程序导向的解决方案包括程序搜索、程序合成和程序归纳等方法,尝试构建能够执行特定任务转换的源代码。概念ARC项目引入了基于十六个特定概念组的新任务套件,扩展了原始数据集的语义覆盖范围。BARC和RE-ARC等程序化生成器通过合成大量样本变体来增强训练数据多样性。最近的研究还探索了将大型语言模型和小型Transformer架构应用于此类推理任务,通过测试时训练和思维语言假说等技术创新来提升神经网络的推理性能。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作