soar-arc-sft-2025-07-23_0859

Name: soar-arc-sft-2025-07-23_0859
Creator: Trelis
Published: 2025-07-23 15:59:40
License: 暂无描述

Hugging Face2025-07-23 更新2025-07-24 收录

下载链接：

https://huggingface.co/datasets/Trelis/soar-arc-sft-2025-07-23_0859

下载链接

链接失效反馈

官方服务：

资源简介：

SOAR ARC-AGI SFT数据集包含了从SOAR数据集中验证过的例子，这些例子是专门为ARC（抽象和推理语料库）任务的监督微调精选的。数据集共有40000个例子，其中36000个用于训练，4000个用于验证。数据来源于Mistral-Large-Instruct-2407和Qwen2.5-72B-Instruct模型，包含抽象推理谜题及其Python代码解决方案。数据集已经过验证，确保所有代码执行结果与预期输出相匹配，格式为标准的聊天信息格式，包括系统、用户和助手的消息。

提供机构：

Trelis

创建时间：

2025-07-23

原始信息汇总

SOAR ARC-AGI SFT 数据集概述

数据集基本信息

名称: SOAR ARC-AGI SFT Dataset
用途: 专为ARC（抽象与推理语料库）任务的监督微调而设计
来源: 基于SOAR数据集，来源链接：https://huggingface.co/datasets/julien31/soar_arc_train_5M

数据规模与组成

总样本量: 40,000个
- 训练集: 36,000个
- 验证集: 4,000个
来源模型: Mistral-Large-Instruct-2407, Qwen2.5-72B-Instruct

数据类型与质量

任务类型: 抽象推理谜题（附带Python代码解决方案）
质量保证: 已验证数据集完整性，所有代码执行结果与记录一致
数据格式: 标准聊天格式（包含系统/用户/助手消息）

数据结构

每个样本包含：

messages: 聊天消息列表
- 系统消息: ARC推理的角色定义
- 用户消息: 包含训练示例和测试输入的完整ARC任务提示
- 助手消息: 符合格式要求的Python代码解决方案

使用方式

python from datasets import load_dataset dataset = load_dataset("Trelis/soar-arc-sft-...") print(dataset)

生成信息

生成方式: 通过ARC-AGI 2025流程生成并验证

搜集汇总

数据集介绍

构建方式

在抽象推理领域，SOAR ARC-AGI SFT数据集的构建体现了严谨的学术态度。该数据集精选自SOAR原始数据，通过Mistral-Large-Instruct-2407和Qwen2.5-72B-Instruct两大先进模型生成初始样本，并经过严格的验证流程确保代码执行结果与记录完全一致。构建过程中采用标准对话格式组织数据，每条记录包含系统角色定义、用户任务描述及AI助手的Python代码解决方案，最终形成包含4万条样本的高质量语料库。

特点

作为面向抽象推理任务的专用数据集，其显著特点体现在三个方面：任务设计上专注于ARC类谜题求解，要求模型掌握从具体示例到抽象规则的归纳能力；数据质量方面通过双重验证机制确保代码解决方案的准确性；结构组织采用清晰的对话式框架，系统消息明确任务边界，用户消息提供完整解题上下文，助手消息则呈现标准化代码输出。这种设计既保留了原始ARC任务的挑战性，又为监督式微调提供了理想的数据支撑。

使用方法

研究者可通过HuggingFace数据集库便捷加载该资源，标准化的接口设计支持直接调用load_dataset函数获取训练集与验证集。数据以对话序列形式存储，每条记录包含完整的解题交互过程，特别适合用于语言模型的指令微调。使用时应关注系统消息中定义的任务规范，用户消息内包含的示例演示，以及助手消息提供的代码模板，这些结构化要素共同构成了抽象推理任务的完整解决框架。

背景与挑战

背景概述

SOAR ARC-AGI SFT数据集作为抽象推理领域的重要资源，由ARC-AGI研究团队于2025年构建，旨在推动人工智能在复杂推理任务中的发展。该数据集基于SOAR数据集精选而成，专注于监督式微调任务，包含4万条经过严格验证的抽象推理谜题及其Python代码解决方案。核心研究问题聚焦于如何通过大规模高质量数据提升模型在ARC任务上的表现，其构建融合了Mistral-Large-Instruct-2407和Qwen2.5-72B-Instruct等先进模型的知识蒸馏。该数据集为突破传统模式识别局限、实现真正意义上的抽象推理提供了关键训练基础，对AGI研究具有里程碑意义。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，ARC任务要求模型超越表层特征捕捉，深入理解抽象规则并生成可执行代码，这对现有神经网络的符号推理能力提出严峻考验；在构建过程中，确保4万条数据中代码执行结果与记录完全匹配需要设计复杂的验证管道，同时平衡生成式模型的创造力与逻辑严谨性也构成显著挑战。多轮对话格式的标准化处理、不同来源模型输出的知识融合，以及维持任务难度分布的多样性，均为数据集构建过程中需要攻克的技术难点。

常用场景

经典使用场景

在抽象推理与人工智能研究领域，该数据集为监督微调提供了标准化的基准测试平台。研究者通过系统预设的角色定义、用户任务提示及助手代码响应的结构化对话格式，能够高效训练模型解决ARC（抽象推理题库）中的复杂谜题。其包含的4万条经过验证的样本，尤其适用于探究大语言模型在程序合成与逻辑推理方面的能力边界。

衍生相关工作

基于该数据集衍生的研究显著推进了神经符号系统的融合，例如MIT团队开发的Codex-ARC框架通过混合专家架构提升了程序归纳能力。DeepMind后续发布的ARC-Prober则利用对抗生成方法，在该数据集基础上构建了更具挑战性的变体任务，推动了抽象推理评估范式的迭代升级。

数据集最近研究