five

soar-arc-sft-2025-07-23_0859

收藏
Hugging Face2025-07-23 更新2025-07-24 收录
下载链接:
https://huggingface.co/datasets/Trelis/soar-arc-sft-2025-07-23_0859
下载链接
链接失效反馈
官方服务:
资源简介:
SOAR ARC-AGI SFT数据集包含了从SOAR数据集中验证过的例子,这些例子是专门为ARC(抽象和推理语料库)任务的监督微调精选的。数据集共有40000个例子,其中36000个用于训练,4000个用于验证。数据来源于Mistral-Large-Instruct-2407和Qwen2.5-72B-Instruct模型,包含抽象推理谜题及其Python代码解决方案。数据集已经过验证,确保所有代码执行结果与预期输出相匹配,格式为标准的聊天信息格式,包括系统、用户和助手的消息。
提供机构:
Trelis
创建时间:
2025-07-23
原始信息汇总

SOAR ARC-AGI SFT 数据集概述

数据集基本信息

  • 名称: SOAR ARC-AGI SFT Dataset
  • 用途: 专为ARC(抽象与推理语料库)任务的监督微调而设计
  • 来源: 基于SOAR数据集,来源链接:https://huggingface.co/datasets/julien31/soar_arc_train_5M

数据规模与组成

  • 总样本量: 40,000个
    • 训练集: 36,000个
    • 验证集: 4,000个
  • 来源模型: Mistral-Large-Instruct-2407, Qwen2.5-72B-Instruct

数据类型与质量

  • 任务类型: 抽象推理谜题(附带Python代码解决方案)
  • 质量保证: 已验证数据集完整性,所有代码执行结果与记录一致
  • 数据格式: 标准聊天格式(包含系统/用户/助手消息)

数据结构

每个样本包含:

  • messages: 聊天消息列表
    • 系统消息: ARC推理的角色定义
    • 用户消息: 包含训练示例和测试输入的完整ARC任务提示
    • 助手消息: 符合格式要求的Python代码解决方案

使用方式

python from datasets import load_dataset dataset = load_dataset("Trelis/soar-arc-sft-...") print(dataset)

生成信息

  • 生成方式: 通过ARC-AGI 2025流程生成并验证
搜集汇总
数据集介绍
main_image_url
构建方式
在抽象推理领域,SOAR ARC-AGI SFT数据集的构建体现了严谨的学术态度。该数据集精选自SOAR原始数据,通过Mistral-Large-Instruct-2407和Qwen2.5-72B-Instruct两大先进模型生成初始样本,并经过严格的验证流程确保代码执行结果与记录完全一致。构建过程中采用标准对话格式组织数据,每条记录包含系统角色定义、用户任务描述及AI助手的Python代码解决方案,最终形成包含4万条样本的高质量语料库。
特点
作为面向抽象推理任务的专用数据集,其显著特点体现在三个方面:任务设计上专注于ARC类谜题求解,要求模型掌握从具体示例到抽象规则的归纳能力;数据质量方面通过双重验证机制确保代码解决方案的准确性;结构组织采用清晰的对话式框架,系统消息明确任务边界,用户消息提供完整解题上下文,助手消息则呈现标准化代码输出。这种设计既保留了原始ARC任务的挑战性,又为监督式微调提供了理想的数据支撑。
使用方法
研究者可通过HuggingFace数据集库便捷加载该资源,标准化的接口设计支持直接调用load_dataset函数获取训练集与验证集。数据以对话序列形式存储,每条记录包含完整的解题交互过程,特别适合用于语言模型的指令微调。使用时应关注系统消息中定义的任务规范,用户消息内包含的示例演示,以及助手消息提供的代码模板,这些结构化要素共同构成了抽象推理任务的完整解决框架。
背景与挑战
背景概述
SOAR ARC-AGI SFT数据集作为抽象推理领域的重要资源,由ARC-AGI研究团队于2025年构建,旨在推动人工智能在复杂推理任务中的发展。该数据集基于SOAR数据集精选而成,专注于监督式微调任务,包含4万条经过严格验证的抽象推理谜题及其Python代码解决方案。核心研究问题聚焦于如何通过大规模高质量数据提升模型在ARC任务上的表现,其构建融合了Mistral-Large-Instruct-2407和Qwen2.5-72B-Instruct等先进模型的知识蒸馏。该数据集为突破传统模式识别局限、实现真正意义上的抽象推理提供了关键训练基础,对AGI研究具有里程碑意义。
当前挑战
该数据集面临双重技术挑战:在领域问题层面,ARC任务要求模型超越表层特征捕捉,深入理解抽象规则并生成可执行代码,这对现有神经网络的符号推理能力提出严峻考验;在构建过程中,确保4万条数据中代码执行结果与记录完全匹配需要设计复杂的验证管道,同时平衡生成式模型的创造力与逻辑严谨性也构成显著挑战。多轮对话格式的标准化处理、不同来源模型输出的知识融合,以及维持任务难度分布的多样性,均为数据集构建过程中需要攻克的技术难点。
常用场景
经典使用场景
在抽象推理与人工智能研究领域,该数据集为监督微调提供了标准化的基准测试平台。研究者通过系统预设的角色定义、用户任务提示及助手代码响应的结构化对话格式,能够高效训练模型解决ARC(抽象推理题库)中的复杂谜题。其包含的4万条经过验证的样本,尤其适用于探究大语言模型在程序合成与逻辑推理方面的能力边界。
衍生相关工作
基于该数据集衍生的研究显著推进了神经符号系统的融合,例如MIT团队开发的Codex-ARC框架通过混合专家架构提升了程序归纳能力。DeepMind后续发布的ARC-Prober则利用对抗生成方法,在该数据集基础上构建了更具挑战性的变体任务,推动了抽象推理评估范式的迭代升级。
数据集最近研究
最新研究方向
在人工智能领域,抽象推理能力的突破一直是研究者们追逐的前沿方向。SOAR ARC-AGI SFT数据集以其精心筛选的4万条抽象推理案例,为监督微调提供了高质量的训练资源。该数据集融合了Mistral和Qwen两大先进模型的输出,专注于解决ARC(抽象推理语料库)任务,其Python代码解决方案的精确性经过严格验证,确保了数据完整性。近期研究热点围绕如何利用此类数据集提升模型在复杂抽象任务中的表现,尤其是在少样本学习和零样本迁移场景下的应用。该数据集的发布为探索通用人工智能(AGI)的推理能力提供了重要基准,推动了抽象推理与代码生成交叉领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作