soar-arc-sft-2025-07-21_01

Name: soar-arc-sft-2025-07-21_01
Creator: Trelis
Published: 2025-07-22 00:43:30
License: 暂无描述

Hugging Face2025-07-22 更新2025-07-23 收录

下载链接：

https://huggingface.co/datasets/Trelis/soar-arc-sft-2025-07-21_01

下载链接

链接失效反馈

官方服务：

资源简介：

SOAR ARC-AGI SFT数据集是一个包含40,000个经过验证的例子的数据集，这些例子专门为ARC（抽象推理语料库）任务的监督微调而设计。数据集的来源模型是Mistral-Large-Instruct-2407和Qwen2.5-72B-Instruct。每个例子都是抽象推理谜题，并伴有Python代码解决方案。数据集采用标准的聊天格式，包括系统、用户和助手的消息。数据集的质量已经过验证，确保了所有代码执行结果与记录的输出相匹配。

提供机构：

Trelis

创建时间：

2025-07-22

原始信息汇总

SOAR ARC-AGI SFT 数据集概述

数据集基本信息

名称: SOAR ARC-AGI SFT Dataset
用途: 专为ARC（抽象与推理语料库）任务的监督微调而设计
来源: 基于SOAR数据集中的已验证示例

数据集统计信息

总样本量: 40,000
- 训练集: 36,000
- 验证集: 4,000
来源模型:
- Mistral-Large-Instruct-2407
- Qwen2.5-72B-Instruct

数据内容

任务类型: 抽象推理谜题（附带Python代码解决方案）
质量保证: 所有代码执行结果与记录结果匹配
数据格式: 标准聊天格式（包含system/user/assistant消息）

数据结构

每个样本包含：

messages: 聊天消息列表
- System: ARC推理的角色定义
- User: 完整ARC任务提示（含训练示例和测试输入）
- Assistant: 符合要求的Python代码解决方案

使用方法

python from datasets import load_dataset

dataset = load_dataset("Trelis/soar-arc-sft") print(dataset)

引用信息

基础数据集: https://huggingface.co/datasets/julien31/soar_arc_train_5M
生成验证: 使用ARC-AGI 2025流程生成并验证

搜集汇总

数据集介绍

构建方式

在抽象推理领域，该数据集通过精选SOAR数据源中经过验证的样本构建而成，采用Mistral-Large-Instruct-2407和Qwen2.5-72B-Instruct双源模型生成内容。构建过程严格遵循代码执行结果与记录输出匹配的验证机制，确保四万个样本的数据完整性，其中训练集与验证集按九比一比例划分。

使用方法

通过HuggingFace数据集库可直接加载该资源，使用load_dataset函数调用Trelis/soar-arc-sft即可获取训练与验证集。数据以标准对话消息格式组织，系统消息设定推理场景，用户消息包含完整任务描述与测试输入，助手消息则提供可直接执行的Python代码解决方案。

背景与挑战

背景概述

抽象推理作为人工智能核心研究领域，旨在模拟人类高阶认知能力。SOAR ARC-AGI SFT数据集由Trelis团队于2025年基于SOAR原始数据集构建，专门针对ARC（抽象与推理语料库）任务的监督微调场景。该数据集整合了Mistral-Large和Qwen2.5等前沿大语言模型的生成结果，通过四万条经过代码执行验证的样本，为抽象推理任务提供了高质量的训练资源，显著推进了人工智能在类比推理和模式归纳方面的研究进程。

当前挑战

ARC任务本身要求模型突破表面特征捕捉，实现深层抽象关系的推演，这对传统神经网络架构构成根本性挑战。数据集构建过程中需确保自动生成的Python代码与预期输出严格一致，涉及大规模代码执行验证的技术难题。同时需平衡生成模型的创造性输出与逻辑严谨性，避免幻觉推理，这种质量管控在数万条样本规模下尤为复杂。

常用场景

经典使用场景

在抽象推理与人工智能通用能力研究领域，SOAR ARC-AGI SFT数据集被广泛用于监督微调任务，特别是针对抽象推理谜题的代码生成与逻辑推演。研究者利用其四万条经过验证的样本，对大型语言模型进行精细化调优，以提升模型在复杂模式识别与程序合成任务中的表现。

解决学术问题

该数据集有效应对了抽象推理任务中泛化能力不足的核心挑战，为模型提供了高质量、可执行的代码解决方案范例。其意义在于弥合了符号推理与神经网络之间的鸿沟，推动了AGI系统在非结构化问题求解方面的研究进展，为衡量机器智能的抽象推理水平设立了新的基准。

实际应用

实际应用中，该数据集支撑了智能教育系统的发展，能够辅助编程逻辑教学与认知训练工具的构建。在自动化代码生成与AI辅助设计领域，它为系统提供了可解释的推理路径，增强了人工智能在创意性任务中的参与度与可靠性。

数据集最近研究