Maze-Reasoning-v0.1, Maze-Reasoning-Reset-v0.1, Maze-Reasoning-GRPO-v0.1
收藏github2025-02-28 更新2025-02-22 收录
下载链接:
https://github.com/janhq/visual-thinker
下载链接
链接失效反馈官方服务:
资源简介:
用于监督微调(SFT)的训练集,包括重置动作的训练集,以及用于GRPO模型的训练集
The training dataset for Supervised Fine-Tuning (SFT) includes the dataset for reset actions and the one for the GRPO model.
创建时间:
2025-02-05
原始信息汇总
AlphaMaze 数据集概述
数据集简介
AlphaMaze 是一种新颖的方法,旨在增强大型语言模型(LLMs)的视觉推理能力。与传统图像处理不同,AlphaMaze 通过纯文本形式的迷宫挑战模型。该任务不仅要求模型找到出口,还需要理解迷宫结构,并在遇到死路时决定是否重置。
数据集构成
模型
- AlphaMaze-v0.2: 基于DeepSeek-R1-Distill-Qwen-1.5B的模型,大小为1.5B。
数据集
- Maze-Reasoning-v0.1: 用于监督微调(SFT)的训练集,大小为570k。
- Maze-Reasoning-Reset-v0.1: 包含重置动作的SFT训练集,大小为470k。
- Maze-Reasoning-GRPO-v0.1: 用于GRPO模型训练的数据集,大小为180k。
性能基准
监督微调(SFT)
- 使用LLaMA-Factory进行SFT训练。
- 训练集:Maze Reasoning。
- 训练结果:不同模型配置和训练步骤下的最终损失值。
组相对策略优化(GRPO)
- 使用Unsloth进行GRPO训练。
- 训练进展:展示MazeBench分数随训练步骤的变化。
使用方法
提供了使用HuggingFace Transformers在本地运行AlphaMaze的示例代码。
后续步骤
团队正在探索GRPO的进一步改进,以提升迷宫解决能力,并计划扩展模型以处理更多空间任务。
参考文献和致谢
- 引用了相关项目和论文。
搜集汇总
数据集介绍

构建方式
Maze-Reasoning-v0.1数据集的构建基于文本描述的迷宫问题,旨在通过监督微调(SFT)和群体相对策略优化(GRPO)训练大型语言模型,以增强其在空间推理方面的能力。数据集包含迷宫的文本表示,其中涵盖了坐标、墙壁、起点、终点以及可能的移动方向。通过训练模型理解这些文本描述并解决迷宫问题,进而评估模型的空间推理能力。
使用方法
使用Maze-Reasoning-v0.1数据集时,用户可以通过Hugging Face平台获取相关模型和数据集。数据集可以直接用于大型语言模型的微调和评估,通过Python脚本和Hugging Face的Transformers库,用户可以轻松加载模型和数据集,进行迷宫问题的解决和空间推理能力的测试。
背景与挑战
背景概述
AlphaMaze项目旨在提升大型语言模型(LLM)的视觉推理能力,通过纯文本描述的迷宫解决任务来挑战模型。该项目由Homebrew.ltd团队创建,并以其独特的方法论引起关注,即不依赖复杂的图像处理,而是要求模型根据文本描述在内部重建迷宫,并据此制定行动策略。AlphaMaze的数据集和模型均在Hugging Face上开源,以促进可复现性和进一步研究。该数据集的创建标志着在大型语言模型领域对空间理解能力评估的一次重要尝试。
当前挑战
AlphaMaze项目面临的挑战包括:1)如何有效地训练模型以理解和处理纯文本形式的迷宫描述,并将其转化为空间推理能力;2)在构建过程中,模型对迷宫特定符号的学习与应用,以及如何优化策略以解决迷宫中的死胡同问题。此外,项目团队在训练过程中发现,添加新的迷宫特定符号并未提升性能,反而有时会导致表现下降,这表明了在模型训练中简化符号复杂性的重要性。
常用场景
经典使用场景
AlphaMaze 数据集的核心应用场景在于训练大型语言模型(LLM)进行视觉推理。它通过纯文本描述的迷宫来挑战模型,要求模型不仅仅能够找到出口,更重要的是理解迷宫的结构,并在遇到死路时做出重置决策。这种设置使得AlphaMaze成为一个独特的评估工具,可以揭示模型在空间理解方面的思考过程。
解决学术问题
该数据集解决了传统视觉推理任务中模型过度依赖图像生成的问题。通过纯文本描述的迷宫,它促使模型在无需生成任何图像的情况下,仅通过语言描述来构建内部迷宫地图并规划行动,这对于评估模型的空间智能具有重要意义。AlphaMaze的引入为研究LLM的空间推理能力提供了新的视角和工具。
实际应用
在实际应用中,AlphaMaze数据集可以被用来训练和评估模型在处理复杂的空间关系和路径规划任务时的性能。这对于自动驾驶、机器人导航以及任何需要理解空间环境的应用场景都至关重要。通过这种方式,AlphaMaze有助于提高机器在现实世界中的操作能力。
数据集最近研究
最新研究方向
AlphaMaze数据集专注于提升大型语言模型的空间推理能力,通过纯文本描述的迷宫解决任务挑战模型。近期研究利用监督微调(SFT)和群体相对策略优化(GRPO)技术,探索模型在不生成图像的情况下如何内化空间关系并进行有效决策。研究表明,模型能够从文本描述中学习空间关系,并在解决迷宫问题时表现出色,这为大型语言模型的空间推理研究提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



