arcagi2-agentic-coding-publication

Hugging Face2026-02-03 更新2026-02-05 收录

下载链接：

https://huggingface.co/datasets/arcagi2/arcagi2-agentic-coding-publication

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集伴随博客文章《Applying agentic coding to ARC AGI 2》发布，包含相关实验运行的完整输出，包括完整提示、LLM响应和工具调用。数据集提供了三种模型的实验数据，分别位于文件夹`interleaved_thinking_vs_plain_cot`中：gpt_5_2_xhigh、gpt_oss_120b_high和minimax_m2_1。对于每个模型，除非另有说明，数据集包含两种方法的数据：baseline（针对每个谜题单独调用模型生成测试输出）和interleaved thinking（针对每个谜题生成一个Python函数，将任何输入网格映射到输出网格）。数据集详细记录了每种方法的实验描述、数据路径、评分逻辑、得分和每个谜题的成本。具体模型的详细信息包括使用的谜题数据集、基础模型、提交ID、实验描述、数据路径、评分逻辑、得分和成本。

This dataset is released in conjunction with the blog post *Applying agentic coding to ARC AGI 2*, and contains complete outputs of associated experiments, including full prompts, LLM responses and tool calls. The dataset provides experimental data for three models, whose respective directories are located under the folder `interleaved_thinking_vs_plain_cot`: gpt_5_2_xhigh, gpt_oss_120b_high, and minimax_m2_1. For each model, unless explicitly stated otherwise, the dataset includes data from two experimental approaches: the baseline method (calling the model individually for each puzzle to generate test outputs) and the interleaved thinking method (generating a Python function for each puzzle that maps any input grid to the corresponding output grid). The dataset comprehensively records the experimental description, data path, scoring logic, scores and per-puzzle cost for each approach. Detailed information for each specific model includes the utilized puzzle dataset, base model, submission ID, experimental description, data path, scoring logic, scores and cost.

创建时间：

2026-02-02

搜集汇总

数据集介绍

构建方式

在抽象推理与通用人工智能研究领域，arcagi2-agentic-coding-publication数据集为评估不同思维范式下的模型表现提供了关键实证数据。该数据集通过系统性的实验设计构建而成，研究者选取了GPT OSS 120B High、Minimax M2.1以及GPT 5.2 XHigh三种前沿大语言模型，在ARC AGI 2的公开评测谜题集上，分别执行了两种对比性任务：一种是传统的基线方法，即模型针对每个测试输入独立生成输出；另一种是交错思维方法，要求模型为每个谜题编写一个通用的Python函数，将任意输入网格映射到输出网格。每种方法均对每个谜题进行了两次采样，并完整记录了包括完整提示、模型响应及工具调用在内的实验运行输出。

使用方法

对于意图使用该数据集的研究者而言，其主要价值在于支持对代理编码与抽象推理能力的深入分析。用户可通过访问数据集在HuggingFace平台上的相应文件夹，获取不同模型与实验方法下的原始数据文件。数据集的核心输出是每个实验路径下的`submission.json`文件，该文件包含了模型对所有谜题的预测提交。研究者可以利用配套GitHub仓库中提供的评分脚本`src/arcagi2/evaluation/score.py`，通过指定`submission.json`文件的路径来复现论文中报告的准确率分数。此外，数据集完整的提示与响应记录使得用户能够细致考察模型的内部推理过程，进行错误分析与思维链质量评估，从而推动更高效的代理式问题解决范式的开发。

背景与挑战

背景概述

在人工智能迈向通用智能的探索中，抽象推理能力的评估成为核心研究议题。ARC AGI 2数据集作为抽象与推理推理挑战的延伸，旨在测试模型对复杂视觉模式的理解与泛化能力。该数据集由Pivotools等研究团队于近期构建，通过公开的Kaggle与GitHub评估版本，为研究者提供了衡量模型在未见任务上表现的标准基准。其核心研究问题聚焦于模型能否超越简单的模式匹配，真正理解并应用抽象规则，从而推动通用人工智能在推理领域的发展，对当前大语言模型与多模态智能体的能力边界提出了深刻拷问。

当前挑战

该数据集致力于解决抽象视觉推理这一领域问题的挑战，其核心在于模型需要从有限的示例中归纳出潜在的变换规则，并准确应用于新的输入，这对模型的归纳偏置与符号推理能力提出了极高要求。在构建过程中，研究团队面临多重挑战：一方面，确保评估任务的多样性与难度平衡，以有效区分不同模型的性能层次；另一方面，实验设计需控制变量以公平比较基线思维链与交织思维等不同推理策略，同时还需应对大模型API调用的不稳定性与高昂计算成本，这些因素共同构成了数据集构建与实验复现中的实际障碍。

常用场景

经典使用场景

在抽象推理与智能体编程领域，arcagi2-agentic-coding-publication数据集为研究者提供了评估大型语言模型在ARC-AGI 2谜题上性能的基准。该数据集通过对比基线方法与交错思维策略，揭示了模型在解决复杂网格变换任务时的能力差异。经典使用场景涉及利用数据集中的完整提示、模型响应及工具调用记录，系统分析不同模型在生成Python函数以映射输入输出网格方面的表现，从而深入探索智能体编码范式的有效性。

解决学术问题

该数据集直接应对了抽象推理任务中模型泛化能力不足的核心学术挑战。通过提供交错思维与普通思维链的对比实验数据，它量化了智能体编码方法在提升模型解决未见谜题准确率方面的贡献。其意义在于为抽象推理研究提供了实证基础，推动了从静态提示工程向动态、交互式问题解决范式的转变，对人工智能在通用问题求解领域的发展产生了深远影响。

实际应用

在实际应用中，该数据集为开发更可靠的自动编程助手和代码生成工具提供了关键训练与评估资源。工程师可依据数据集中模型在ARC-AGI 2谜题上的表现，优化智能体系统的决策流程与工具调用策略，进而提升系统在软件测试、教育技术或自动化脚本编写等场景下的鲁棒性与准确性。这些应用显著增强了人工智能处理开放式、规则隐含任务的实际效能。

数据集最近研究