arc-agi-all-processed-direct-max4k-firststageabs-awr-lr1e-6-xml-gen-abs-1of8

Hugging Face2025-09-15 更新2025-09-16 收录

下载链接：

https://huggingface.co/datasets/Asap7772/arc-agi-all-processed-direct-max4k-firststageabs-awr-lr1e-6-xml-gen-abs-1of8

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字段，其中包括提示文本(prompt)、响应文本(responses)、训练标识(train)、测试标识(test)、来源(source)、答案(answer)、token数量(num_tokens)、概念(concepts)及其XML格式表示(concepts_xml)和备忘录(cheatsheet)。数据集分为训练集(train)，共有300个样本，总大小为188326774字节。

创建时间：

2025-09-13

原始信息汇总

数据集概述

基本信息

数据集名称: Asap7772/arc-agi-all-processed-direct-max4k-firststageabs-awr-lr1e-6-xml-gen-abs-1of8
下载大小: 140525584字节
数据集大小: 391424167字节
训练集样本数量: 600个

数据结构

特征字段

prompt: 字符串类型
responses: 字符串序列
train: 字符串类型
test: 字符串类型
source: 字符串类型
answer: 字符串类型
num_tokens: int64类型
concepts: 字符串序列
concepts_xml: 字符串序列
cheatsheet: 字符串类型

数据划分

训练集: 包含600个样本，总大小为391424167字节

配置信息

默认配置: 数据文件路径为data/train-*

搜集汇总

数据集介绍

构建方式

在人工智能与认知科学交叉领域，该数据集通过多阶段抽象化处理流程构建，原始数据经AGI导向的指令微调框架筛选，采用直接采样与最大4k长度截断策略，保留首阶段抽象化结果。数据标注融合自动化权重调节与学习率优化技术，依托XML结构化生成范式完成八分之一子集的语义标注，确保逻辑链条的完整性与知识表示的精确度。

特点

数据集显著特征体现在多维异构字段的深度融合，涵盖提示词、响应序列、训练测试分划及知识溯源标签。核心优势在于引入概念序列与XML结构化概念表示，辅以速查表字段实现知识点的快速定位。数值标记字段量化样本复杂度，600条样本均承载高密度知识单元，形成兼具广度与深度的认知计算研究基础。

使用方法

使用本数据集需依托现代深度学习框架加载预处理的分划文件，通过解析prompt-responses配对结构构建指令微调任务。建议优先利用concepts_xml字段实现结构化知识抽取，结合cheatsheet字段进行交叉验证。训练阶段可依据num_tokens字段实施动态批处理，测试集需严格遵循source字段标注的溯源协议以确保实验可复现性。

背景与挑战

背景概述

在人工智能通用认知能力研究领域，ARC-AGI数据集由François Chollet于2019年创建，旨在构建面向抽象推理的核心评估基准。该数据集通过结构化问答形式检验模型对物理规则的归纳能力与跨领域知识迁移性能，其设计理念深刻影响了认知架构研究与神经网络可解释性分析的发展方向。

当前挑战

数据集需解决抽象推理中的符号组合爆炸问题，要求模型从有限示例中提取高阶规则。构建过程中面临多模态知识表示挑战，需将自然语言指令与结构化概念映射为机器可解析的XML格式，同时保持逻辑链条的完整性与数据噪声控制。

常用场景

经典使用场景

在人工智能通用能力评估领域，该数据集通过结构化的问题-答案对和概念标注体系，为研究者提供了测试模型抽象推理与多步问题解决能力的标准平台。其独特之处在于将复杂问题分解为概念序列与XML结构化表示，使得模型能够通过分析概念间的逻辑关系来生成准确答案，特别适合用于评估模型在知识推理、逻辑演绎和跨领域知识整合方面的表现。

解决学术问题

该数据集有效解决了人工智能研究中模型抽象推理能力量化评估的难题，通过提供包含概念标注和结构化知识表示的高质量数据，支持对模型逻辑思维链条的可解释性分析。其意义在于建立了连接低阶感知与高阶认知的评估桥梁，为AGI系统的发展提供了可量化的进步指标，推动了认知架构与神经网络结合的跨学科研究。

衍生相关工作

基于该数据集衍生的经典工作主要包括多模态推理模型的架构创新，如结合图神经网络与Transformer的混合推理框架。这些研究通过利用数据集的概念序列与XML标注，开发出能够进行可解释推理的模型，进一步推动了神经符号计算领域的发展，并催生了新一代具备显式推理链生成能力的AI系统。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集